Calibración de la Confianza Agéntica
Agentic Confidence Calibration
January 22, 2026
Autores: Jiaxin Zhang, Caiming Xiong, Chien-Sheng Wu
cs.AI
Resumen
Los agentes de IA están evolucionando rápidamente desde modelos lingüísticos pasivos hacia sistemas autónomos que ejecutan tareas complejas de múltiples pasos. Sin embargo, su exceso de confianza ante el fracaso sigue siendo una barrera fundamental para su implementación en entornos de alto riesgo. Los métodos de calibración existentes, diseñados para salidas estáticas de un solo turno, no pueden abordar los desafíos únicos de los sistemas agentivos, como los errores acumulativos a lo largo de las trayectorias, la incertidumbre de las herramientas externas y los modos de fallo opacos. Para abordar estos desafíos, introducimos, por primera vez, el problema de la Calibración de Confianza Agentiva y proponemos la Calibración Holística de Trayectorias (HTC), un marco de diagnóstico novedoso que extrae ricas características a nivel de proceso, que van desde la dinámica macro hasta la estabilidad micro a lo largo de toda la trayectoria de un agente. Impulsado por un modelo simple e interpretable, HTC supera constantemente líneas de base sólidas tanto en calibración como en discriminación, a través de ocho puntos de referencia, múltiples LLM y diversos marcos de agentes. Más allá del rendimiento, HTC ofrece tres avances esenciales: proporciona interpretabilidad al revelar las señales detrás del fallo, permite la transferibilidad al aplicarse en distintos dominios sin necesidad de reentrenamiento, y logra generalización a través de un Calibrador de Agente General (GAC) que alcanza la mejor calibración (ECE más bajo) en el punto de referencia fuera de dominio GAIA. En conjunto, estas contribuciones establecen un nuevo paradigma centrado en el proceso para la calibración de la confianza, proporcionando un marco para diagnosticar y mejorar la fiabilidad de los agentes de IA.
English
AI agents are rapidly advancing from passive language models to autonomous systems executing complex, multi-step tasks. Yet their overconfidence in failure remains a fundamental barrier to deployment in high-stakes settings. Existing calibration methods, built for static single-turn outputs, cannot address the unique challenges of agentic systems, such as compounding errors along trajectories, uncertainty from external tools, and opaque failure modes. To address these challenges, we introduce, for the first time, the problem of Agentic Confidence Calibration and propose Holistic Trajectory Calibration (HTC), a novel diagnostic framework that extracts rich process-level features ranging from macro dynamics to micro stability across an agent's entire trajectory. Powered by a simple, interpretable model, HTC consistently surpasses strong baselines in both calibration and discrimination, across eight benchmarks, multiple LLMs, and diverse agent frameworks. Beyond performance, HTC delivers three essential advances: it provides interpretability by revealing the signals behind failure, enables transferability by applying across domains without retraining, and achieves generalization through a General Agent Calibrator (GAC) that achieves the best calibration (lowest ECE) on the out-of-domain GAIA benchmark. Together, these contributions establish a new process-centric paradigm for confidence calibration, providing a framework for diagnosing and enhancing the reliability of AI agents.