エージェンシック信頼度キャリブレーション
Agentic Confidence Calibration
January 22, 2026
著者: Jiaxin Zhang, Caiming Xiong, Chien-Sheng Wu
cs.AI
要旨
AIエージェントは、受動的な言語モデルから、複雑な多段階タスクを実行する自律システムへと急速に進化している。しかし、高リスク環境での実用化においては、失敗に対する過信が根本的な障壁として残っている。静的な単一ターン出力向けに構築された既存の校正手法は、軌道上での誤差の累積、外部ツールに起因する不確実性、不透明な失敗モードといった、エージェントシステムに特有の課題に対処できない。これらの課題に取り組むため、本論文では初めて、**エージェント的信頼度校正**という問題を提起し、**全体的軌道校正**という新規の診断フレームワークを提案する。HTCは、エージェントの軌道全体にわたって、巨視的ダイナミクスから微視的安定性に至るまで、豊富なプロセスレベル特徴を抽出する。シンプルで解釈可能なモデルを基盤とするHTCは、8つのベンチマーク、複数の大規模言語モデル、多様なエージェントフレームワークにおいて、校正と識別の両方で強力なベースラインを一貫して上回る。性能を超えて、HTCは3つの重要な進展をもたらす。(1) 失敗の背景にあるシグナルを明らかにすることで**解釈可能性**を提供し、(2) 再学習なしに異なるドメインに適用することで**転移性**を可能にし、(3) **汎用エージェント校正器**を通じて**一般化**を達成する。GACはドメイン外のGAIAベンチマークで最高の校正性能(最低ECE)を実現する。これらの貢献が一体となり、信頼度校正に対する新たなプロセス中心のパラダイムを確立し、AIエージェントの信頼性を診断・強化するための枠組みを提供する。
English
AI agents are rapidly advancing from passive language models to autonomous systems executing complex, multi-step tasks. Yet their overconfidence in failure remains a fundamental barrier to deployment in high-stakes settings. Existing calibration methods, built for static single-turn outputs, cannot address the unique challenges of agentic systems, such as compounding errors along trajectories, uncertainty from external tools, and opaque failure modes. To address these challenges, we introduce, for the first time, the problem of Agentic Confidence Calibration and propose Holistic Trajectory Calibration (HTC), a novel diagnostic framework that extracts rich process-level features ranging from macro dynamics to micro stability across an agent's entire trajectory. Powered by a simple, interpretable model, HTC consistently surpasses strong baselines in both calibration and discrimination, across eight benchmarks, multiple LLMs, and diverse agent frameworks. Beyond performance, HTC delivers three essential advances: it provides interpretability by revealing the signals behind failure, enables transferability by applying across domains without retraining, and achieves generalization through a General Agent Calibrator (GAC) that achieves the best calibration (lowest ECE) on the out-of-domain GAIA benchmark. Together, these contributions establish a new process-centric paradigm for confidence calibration, providing a framework for diagnosing and enhancing the reliability of AI agents.