ChatPaper.aiChatPaper

La Dichotomie de la Confiance : Analyse et Atténuation de la Mauvaise Calibration chez les Agents Utilisant des Outils

The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents

January 12, 2026
papers.authors: Weihao Xuan, Qingcheng Zeng, Heli Qi, Yunze Xiao, Junjue Wang, Naoto Yokoya
cs.AI

papers.abstract

Les agents autonomes basés sur les grands modèles de langage (LLM) évoluent rapidement pour traiter des tâches à tours multiples, mais garantir leur fiabilité reste un défi critique. Un pilier fondamental de cette fiabilité est l'étalonnage, qui désigne la capacité d'un agent à exprimer une confiance qui reflète fidèlement ses performances réelles. Bien que l'étalonnage soit bien établi pour les modèles statiques, sa dynamique dans les workflows agentiels intégrant des outils reste peu explorée. Dans ce travail, nous étudions systématiquement l'étalonnage verbalisé chez les agents utilisant des outils, révélant une dichotomie fondamentale de la confiance induite par le type d'outil. Plus précisément, notre étude pilote identifie que les outils de preuve (par exemple, la recherche web) induisent systématiquement une surconfiance sévère en raison du bruit inhérent aux informations récupérées, tandis que les outils de vérification (par exemple, les interpréteurs de code) peuvent ancrer le raisonnement via un retour déterministe et atténuer le mauvais étalonnage. Pour améliorer robustement l'étalonnage across tool types, nous proposons un cadre de réglage fin par apprentissage par renforcement (RL) qui optimise conjointement la précision des tâches et l'étalonnage, soutenu par un benchmark holistique de conceptions de récompense. Nous démontrons que nos agents entraînés atteignent non seulement un étalonnage supérieur, mais présentent également une généralisation robuste des environnements d'entraînement locaux vers des paramètres web bruités et vers des domaines distincts tels que le raisonnement mathématique. Nos résultats soulignent la nécessité de stratégies d'étalonnage spécifiques au domaine pour les agents utilisant des outils. Plus largement, ce travail jette les bases pour construire des agents conscients d'eux-mêmes capables de communiquer fièrement l'incertitude dans des déploiements réels à enjeux élevés.
English
Autonomous agents based on large language models (LLMs) are rapidly evolving to handle multi-turn tasks, but ensuring their trustworthiness remains a critical challenge. A fundamental pillar of this trustworthiness is calibration, which refers to an agent's ability to express confidence that reliably reflects its actual performance. While calibration is well-established for static models, its dynamics in tool-integrated agentic workflows remain underexplored. In this work, we systematically investigate verbalized calibration in tool-use agents, revealing a fundamental confidence dichotomy driven by tool type. Specifically, our pilot study identifies that evidence tools (e.g., web search) systematically induce severe overconfidence due to inherent noise in retrieved information, while verification tools (e.g., code interpreters) can ground reasoning through deterministic feedback and mitigate miscalibration. To robustly improve calibration across tool types, we propose a reinforcement learning (RL) fine-tuning framework that jointly optimizes task accuracy and calibration, supported by a holistic benchmark of reward designs. We demonstrate that our trained agents not only achieve superior calibration but also exhibit robust generalization from local training environments to noisy web settings and to distinct domains such as mathematical reasoning. Our results highlight the necessity of domain-specific calibration strategies for tool-use agents. More broadly, this work establishes a foundation for building self-aware agents that can reliably communicate uncertainty in high-stakes, real-world deployments.
PDF211January 15, 2026