Calibration de la Confiance Agentique
Agentic Confidence Calibration
January 22, 2026
papers.authors: Jiaxin Zhang, Caiming Xiong, Chien-Sheng Wu
cs.AI
papers.abstract
Les agents IA évoluent rapidement de modèles linguistiques passifs vers des systèmes autonomes exécutant des tâches complexes à multiples étapes. Pourtant, leur surconfiance face à l'échec reste une barrière fondamentale à leur déploiement dans des contextes à haut risque. Les méthodes de calibration existantes, conçues pour des sorties statiques en un seul tour, ne peuvent résoudre les défis uniques des systèmes agentiels, tels que l'accumulation d'erreurs le long des trajectoires, l'incertitude liée aux outils externes et les modes de défaillance opaques. Pour relever ces défis, nous introduisons, pour la première fois, le problème de la Calibration de Confiance Agentielle et proposons la Calibration Holistique de Trajectoire (HTC), un cadre diagnostique novateur qui extrait de riches caractéristiques au niveau processus, allant de la dynamique macro à la stabilité micro, sur l'ensemble de la trajectoire d'un agent. Propulsé par un modèle simple et interprétable, HTC surpasse constamment des bases de référence solides à la fois en calibration et en discrimination, sur huit benchmarks, plusieurs grands modèles de langage (LLM) et divers cadres agentiels. Au-delà des performances, HTC offre trois avancées essentiables : il fournit de l'interprétabilité en révélant les signaux sous-jacents aux échecs, permet la transférabilité en s'appliquant à différents domaines sans réentraînement, et atteint la généralisation grâce à un Calibrateur Agentiel Général (GAC) qui obtient la meilleure calibration (ECE le plus bas) sur le benchmark hors domaine GAIA. Ensemble, ces contributions établissent un nouveau paradigme centré sur le processus pour la calibration de confiance, offrant un cadre pour diagnostiquer et améliorer la fiabilité des agents IA.
English
AI agents are rapidly advancing from passive language models to autonomous systems executing complex, multi-step tasks. Yet their overconfidence in failure remains a fundamental barrier to deployment in high-stakes settings. Existing calibration methods, built for static single-turn outputs, cannot address the unique challenges of agentic systems, such as compounding errors along trajectories, uncertainty from external tools, and opaque failure modes. To address these challenges, we introduce, for the first time, the problem of Agentic Confidence Calibration and propose Holistic Trajectory Calibration (HTC), a novel diagnostic framework that extracts rich process-level features ranging from macro dynamics to micro stability across an agent's entire trajectory. Powered by a simple, interpretable model, HTC consistently surpasses strong baselines in both calibration and discrimination, across eight benchmarks, multiple LLMs, and diverse agent frameworks. Beyond performance, HTC delivers three essential advances: it provides interpretability by revealing the signals behind failure, enables transferability by applying across domains without retraining, and achieves generalization through a General Agent Calibrator (GAC) that achieves the best calibration (lowest ECE) on the out-of-domain GAIA benchmark. Together, these contributions establish a new process-centric paradigm for confidence calibration, providing a framework for diagnosing and enhancing the reliability of AI agents.