Appier 發表論文 研發能力校準技術、讓 Agent 學會評估勝率再出手

AI原生Agentic AI即服務(AaaS)業者Appier(沛星互動科技) 持續深化AI創新技術與前瞻研究佈局。24日發表最新研究論文《大型語言模型的校準研究:從迴應表現到能力評估》,針對大型語言模型(LLM)在實務應用中常見的過度自信與AI幻覺,提出全新的能力校準 (Capability Calibration)概念,讓AI Agent「量力而爲」,能更準確地判斷其對特定問題的解題能力。

Appier指出,研究主要能爲AI Agent開發關鍵能力,也就是在迴應問題之前,先評估「自己答對的機率有多高」。以建立可量化的「自我評估」機制, AI系統得以在可信任的基礎上進行更有效率的決策與資源分配,進一步提升企業在 AI應用上的可靠度、成本效益與規模化部署能力。

Appier指出,傳統LLM的校準方法主要着重於迴應層級信心度,也就是評估單一生成答案的正確機率。但LLM的生成過程本質上具有隨機性,同一個問題在不同次生成時可能得到不同答案,僅依賴單次回答的正確性,往往無法真正反映模型面對該問題的整體能力。

在許多實際應用情境中,企業更重視「這個模型整體上能否解決這個問題」。Appier AI研究團隊提出能力校準的評估框架,將焦點從單次回答的信心度,轉向模型對特定問題的預期成功率。代表評估目標從「一次回答」提升到「整體解題能力」,更貼近真實的AI應用需求。

Appier 執行長暨共同創辦人遊直翰表示,希望讓AI Agent不只是會回答問題,更能理解自己的能力邊界。透過能力校準技術,Agent在迴應之前先判斷成功機率,進而智慧地分配運算資源:簡單問題快速處理,困難任務則自動調度更強大的模型或更多運算能力。AI從單純的工具進化爲能爲企業主動管理資源、優化成本與提升決策品質的智慧系統,是企業級Agent能真正大規模落地的重要基礎。

在研究方法上,Appier AI研究團隊首先從理論上釐清能力校準與迴應校準(Response Calibration)的差異,並推導兩者之間的數學關係。其次,團隊進一步透過三個不同的大型語言模型,在七個涵蓋知識與推理密集任務的資料集上進行實驗,並比較多種不同的信心估計方法,包括模型自述信心(Verbalized confidence)、P(True)方法、線性探針(Linear probe)方法,研究結果顯示,線性探針方法在成本與效果之間取得最佳平衡,其計算成本甚至低於生成一個Token,但仍能穩定提供高品質的信心估計。