ChatPaper.aiChatPaper

에이전트 신뢰도 보정

Agentic Confidence Calibration

January 22, 2026
저자: Jiaxin Zhang, Caiming Xiong, Chien-Sheng Wu
cs.AI

초록

AI 에이전트는 수동적 언어 모델에서 복잡한 다단계 작업을 수행하는 자율 시스템으로 빠르게 진화하고 있습니다. 그러나 실패 상황에서의 과도한 자신감은 높은 위험을 수반하는 환경에 배치하는 데 근본적인 장애물로 남아있습니다. 정적인 단일 턴 출력을 위해 설계된 기존 보정 방법은 궤적을 따라 누적되는 오류, 외부 도구로 인한 불확실성, 불명확한 실패 모드와 같은 에이전트 시스템의 고유한 문제를 해결할 수 없습니다. 이러한 문제를 해결하기 위해 우리는 최초로 에이전트 신뢰도 보정 문제를 제안하고, 에이전트 전체 궤적에 걸쳐 거시적 역학에서 미시적 안정성에 이르는 풍부한 프로세스 수준 특징을 추출하는 새로운 진단 프레임워크인 Holistic Trajectory Calibration(HTC)을 소개합니다. 간단하고 해석 가능한 모델을 기반으로 하는 HTC는 8개의 벤치마크, 다양한 LLM, 여러 에이전트 프레임워크에서 보정 및 판별 능력 모두에서 강력한 기준선을 일관되� 능가했습니다. 성능을 넘어 HTC는 세 가지 핵심 진전을 제공합니다: 실패 배후의 신호를 밝혀 해석 가능성을 제공하고, 재학습 없이 다양한 도메인에 적용하여 이전 가능성을 확보하며, 도메인 외 GAIA 벤치마크에서 최고의 보정(최저 ECE)을 달성하는 General Agent Calibrator(GAC)를 통해 일반화를 실현합니다. 이러한 공헌을 통해 신뢰도 보정에 대한 새로운 프로세스 중심 패러다임을 정립함으로써 AI 에이전트의 신뢰성을 진단하고 향상시키는 프레임워크를 제공합니다.
English
AI agents are rapidly advancing from passive language models to autonomous systems executing complex, multi-step tasks. Yet their overconfidence in failure remains a fundamental barrier to deployment in high-stakes settings. Existing calibration methods, built for static single-turn outputs, cannot address the unique challenges of agentic systems, such as compounding errors along trajectories, uncertainty from external tools, and opaque failure modes. To address these challenges, we introduce, for the first time, the problem of Agentic Confidence Calibration and propose Holistic Trajectory Calibration (HTC), a novel diagnostic framework that extracts rich process-level features ranging from macro dynamics to micro stability across an agent's entire trajectory. Powered by a simple, interpretable model, HTC consistently surpasses strong baselines in both calibration and discrimination, across eight benchmarks, multiple LLMs, and diverse agent frameworks. Beyond performance, HTC delivers three essential advances: it provides interpretability by revealing the signals behind failure, enables transferability by applying across domains without retraining, and achieves generalization through a General Agent Calibrator (GAC) that achieves the best calibration (lowest ECE) on the out-of-domain GAIA benchmark. Together, these contributions establish a new process-centric paradigm for confidence calibration, providing a framework for diagnosing and enhancing the reliability of AI agents.
PDF11January 24, 2026