La Dicotomía de la Confianza: Análisis y Mitigación de la Miscalibración en Agentes que Utilizan Herramientas
The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents
January 12, 2026
Autores: Weihao Xuan, Qingcheng Zeng, Heli Qi, Yunze Xiao, Junjue Wang, Naoto Yokoya
cs.AI
Resumen
Los agentes autónomos basados en modelos de lenguaje extenso (LLM) están evolucionando rápidamente para manejar tareas de múltiples turnos, pero garantizar su confiabilidad sigue siendo un desafío crítico. Un pilar fundamental de esta confiabilidad es la calibración, que se refiere a la capacidad de un agente para expresar una confianza que refleje fielmente su rendimiento real. Si bien la calibración está bien establecida para modelos estáticos, su dinámica en flujos de trabajo agentales integrados con herramientas sigue siendo poco explorada. En este trabajo, investigamos sistemáticamente la calibración verbalizada en agentes que utilizan herramientas, revelando una dicotomía fundamental de la confianza impulsada por el tipo de herramienta. Específicamente, nuestro estudio piloto identifica que las herramientas de evidencia (por ejemplo, búsqueda web) inducen sistemáticamente una sobreconfianza severa debido al ruido inherente en la información recuperada, mientras que las herramientas de verificación (por ejemplo, intérpretes de código) pueden fundamentar el razonamiento mediante retroalimentación determinista y mitigar la descalibración. Para mejorar robustamente la calibración en todos los tipos de herramientas, proponemos un marco de ajuste fino por aprendizaje por refuerzo (RL) que optimiza conjuntamente la precisión de la tarea y la calibración, respaldado por un benchmark holístico de diseños de recompensa. Demostramos que nuestros agentes entrenados no solo logran una calibración superior, sino que también exhiben una generalización robusta desde entornos de entrenamiento locales a entornos web ruidosos y a dominios distintos, como el razonamiento matemático. Nuestros resultados destacan la necesidad de estrategias de calibración específicas por dominio para agentes que utilizan herramientas. En un sentido más amplio, este trabajo establece una base para construir agentes autoconscientes que puedan comunicar de manera fiable la incertidumbre en implementaciones del mundo real de alto riesgo.
English
Autonomous agents based on large language models (LLMs) are rapidly evolving to handle multi-turn tasks, but ensuring their trustworthiness remains a critical challenge. A fundamental pillar of this trustworthiness is calibration, which refers to an agent's ability to express confidence that reliably reflects its actual performance. While calibration is well-established for static models, its dynamics in tool-integrated agentic workflows remain underexplored. In this work, we systematically investigate verbalized calibration in tool-use agents, revealing a fundamental confidence dichotomy driven by tool type. Specifically, our pilot study identifies that evidence tools (e.g., web search) systematically induce severe overconfidence due to inherent noise in retrieved information, while verification tools (e.g., code interpreters) can ground reasoning through deterministic feedback and mitigate miscalibration. To robustly improve calibration across tool types, we propose a reinforcement learning (RL) fine-tuning framework that jointly optimizes task accuracy and calibration, supported by a holistic benchmark of reward designs. We demonstrate that our trained agents not only achieve superior calibration but also exhibit robust generalization from local training environments to noisy web settings and to distinct domains such as mathematical reasoning. Our results highlight the necessity of domain-specific calibration strategies for tool-use agents. More broadly, this work establishes a foundation for building self-aware agents that can reliably communicate uncertainty in high-stakes, real-world deployments.