☰

Appier 發表論文研發能力校準技術、讓 Agent 學會評估勝率再出手

AI原生Agentic AI即服務（AaaS）業者Appier（沛星互動科技）持續深化AI創新技術與前瞻研究佈局。24日發表最新研究論文《大型語言模型的校準研究：從迴應表現到能力評估》，針對大型語言模型（LLM）在實務應用中常見的過度自信與AI幻覺，提出全新的能力校準（Capability Calibration）概念，讓AI Agent「量力而爲」，能更準確地判斷其對特定問題的解題能力。

Appier指出，研究主要能爲AI Agent開發關鍵能力，也就是在迴應問題之前，先評估「自己答對的機率有多高」。以建立可量化的「自我評估」機制， AI系統得以在可信任的基礎上進行更有效率的決策與資源分配，進一步提升企業在 AI應用上的可靠度、成本效益與規模化部署能力。

Appier指出，傳統LLM的校準方法主要着重於迴應層級信心度，也就是評估單一生成答案的正確機率。但LLM的生成過程本質上具有隨機性，同一個問題在不同次生成時可能得到不同答案，僅依賴單次回答的正確性，往往無法真正反映模型面對該問題的整體能力。

在許多實際應用情境中，企業更重視「這個模型整體上能否解決這個問題」。Appier AI研究團隊提出能力校準的評估框架，將焦點從單次回答的信心度，轉向模型對特定問題的預期成功率。代表評估目標從「一次回答」提升到「整體解題能力」，更貼近真實的AI應用需求。

Appier 執行長暨共同創辦人遊直翰表示，希望讓AI Agent不只是會回答問題，更能理解自己的能力邊界。透過能力校準技術，Agent在迴應之前先判斷成功機率，進而智慧地分配運算資源：簡單問題快速處理，困難任務則自動調度更強大的模型或更多運算能力。AI從單純的工具進化爲能爲企業主動管理資源、優化成本與提升決策品質的智慧系統，是企業級Agent能真正大規模落地的重要基礎。

在研究方法上，Appier AI研究團隊首先從理論上釐清能力校準與迴應校準（Response Calibration）的差異，並推導兩者之間的數學關係。其次，團隊進一步透過三個不同的大型語言模型，在七個涵蓋知識與推理密集任務的資料集上進行實驗，並比較多種不同的信心估計方法，包括模型自述信心（Verbalized confidence）、P（True）方法、線性探針（Linear probe）方法，研究結果顯示，線性探針方法在成本與效果之間取得最佳平衡，其計算成本甚至低於生成一個Token，但仍能穩定提供高品質的信心估計。

Appier 發表論文 研發能力校準技術、讓 Agent 學會評估勝率再出手

相關資訊

Appier 發表論文研發能力校準技術、讓 Agent 學會評估勝率再出手