ChatPaper.aiChatPaper

Het Vertrouwensdichotomie: Analyse en Mitigatie van Miscalibratie bij Gereedschapsgebruikende Agents

The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents

January 12, 2026
Auteurs: Weihao Xuan, Qingcheng Zeng, Heli Qi, Yunze Xiao, Junjue Wang, Naoto Yokoya
cs.AI

Samenvatting

Autonome agenten gebaseerd op grote taalmmodellen (LLM's) evolueren snel om meerronde taken aan te kunnen, maar het waarborgen van hun betrouwbaarheid blijft een kritieke uitdaging. Een fundamentele pijler van deze betrouwbaarheid is kalibratie, wat verwijst naar het vermogen van een agent om een betrouwbaarheidsniveau uit te drukken dat daadwerkelijk zijn prestaties weerspiegelt. Hoewel kalibratie goed is ingeburgerd voor statische modellen, blijven de dynamiek ervan in op tools gebaseerde, agent-gestuurde workflows onderbelicht. In dit werk onderzoeken we systematisch de verbaal uitgedrukte kalibratie bij toolgebruikende agenten, waarbij een fundamentele vertrouwensdichotomie aan het licht komt die wordt aangedreven door het type tool. Onze pilotstudie identificeert specifiek dat bewijstools (bijv. zoeken op het web) systematisch ernstige overmoed induceren door inherente ruis in opgehaalde informatie, terwijl verificatietools (bijv. code-interpreters) de redenering kunnen grondvesten door deterministische feedback en zo miskalibratie kunnen verminderen. Om de kalibratie robuust te verbeteren voor alle tooltypen, stellen we een reinforcement learning (RL) fine-tuning raamwerk voor dat zowel taaknauwkeurigheid als kalibratie gezamenlijk optimaliseert, ondersteund door een holistische benchmark van beloningsontwerpen. We tonen aan dat onze getrainde agenten niet alleen superieure kalibratie bereiken, maar ook robuuste generalisatie vertonen: van lokale trainingsomgevingen naar rumoerige webomgevingen en naar verschillende domeinen zoals wiskundig redeneren. Onze resultaten benadrukken de noodzaak van domeinspecifieke kalibratiestrategieën voor toolgebruikende agenten. In bredere zin legt dit werk een fundament voor het bouwen van zelfbewuste agenten die onzekerheid op betrouwbare wijze kunnen communiceren in hoog-risico, real-world implementaties.
English
Autonomous agents based on large language models (LLMs) are rapidly evolving to handle multi-turn tasks, but ensuring their trustworthiness remains a critical challenge. A fundamental pillar of this trustworthiness is calibration, which refers to an agent's ability to express confidence that reliably reflects its actual performance. While calibration is well-established for static models, its dynamics in tool-integrated agentic workflows remain underexplored. In this work, we systematically investigate verbalized calibration in tool-use agents, revealing a fundamental confidence dichotomy driven by tool type. Specifically, our pilot study identifies that evidence tools (e.g., web search) systematically induce severe overconfidence due to inherent noise in retrieved information, while verification tools (e.g., code interpreters) can ground reasoning through deterministic feedback and mitigate miscalibration. To robustly improve calibration across tool types, we propose a reinforcement learning (RL) fine-tuning framework that jointly optimizes task accuracy and calibration, supported by a holistic benchmark of reward designs. We demonstrate that our trained agents not only achieve superior calibration but also exhibit robust generalization from local training environments to noisy web settings and to distinct domains such as mathematical reasoning. Our results highlight the necessity of domain-specific calibration strategies for tool-use agents. More broadly, this work establishes a foundation for building self-aware agents that can reliably communicate uncertainty in high-stakes, real-world deployments.
PDF211January 15, 2026