La dicotomia della fiducia: analisi e mitigazione della scorretta calibrazione negli agenti con utilizzo di strumenti

Abstract

Gli agenti autonomi basati su grandi modelli linguistici (LLM) stanno evolvendo rapidamente per gestire compiti multi-turno, ma garantire la loro affidabilità rimane una sfida cruciale. Un pilastro fondamentale di questa affidabilità è la calibrazione, che si riferisce alla capacità di un agente di esprimere una confidenza che rifletta fedelmente le sue prestazioni effettive. Sebbene la calibrazione sia ben consolidata per i modelli statici, le sue dinamiche nei flussi di lavoro agentistici integrati con strumenti rimangono poco esplorate. In questo lavoro, indaghiamo sistematicamente la calibrazione verbalizzata negli agenti che utilizzano strumenti, rivelando una dicotomia fondamentale della confidenza guidata dal tipo di strumento. Nello specifico, il nostro studio pilota identifica che gli strumenti di evidenza (ad esempio, la ricerca web) inducono sistematicamente una grave sovraconfidenza a causa del rumore intrinseco nelle informazioni recuperate, mentre gli strumenti di verifica (ad esempio, gli interpreti di codice) possono ancorare il ragionamento attraverso feedback deterministico e mitigare la scorretta calibrazione. Per migliorare robustamente la calibrazione tra i tipi di strumento, proponiamo un framework di fine-tuning con apprendimento per rinforzo (RL) che ottimizza congiuntamente l'accuratezza del compito e la calibrazione, supportato da un benchmark olistico di progettazioni di reward. Dimostriamo che i nostri agenti addestrati non solo raggiungono una calibrazione superiore, ma mostrano anche una robusta generalizzazione dagli ambienti di addestramento locali a contesti web rumorosi e a domini distinti come il ragionamento matematico. I nostri risultati evidenziano la necessità di strategie di calibrazione specifiche per dominio per gli agenti che utilizzano strumenti. Più in generale, questo lavoro getta le basi per costruire agenti auto-consapevoli che possano comunicare in modo affidabile l'incertezza in deployment reali ad alto rischio.

English

Autonomous agents based on large language models (LLMs) are rapidly evolving to handle multi-turn tasks, but ensuring their trustworthiness remains a critical challenge. A fundamental pillar of this trustworthiness is calibration, which refers to an agent's ability to express confidence that reliably reflects its actual performance. While calibration is well-established for static models, its dynamics in tool-integrated agentic workflows remain underexplored. In this work, we systematically investigate verbalized calibration in tool-use agents, revealing a fundamental confidence dichotomy driven by tool type. Specifically, our pilot study identifies that evidence tools (e.g., web search) systematically induce severe overconfidence due to inherent noise in retrieved information, while verification tools (e.g., code interpreters) can ground reasoning through deterministic feedback and mitigate miscalibration. To robustly improve calibration across tool types, we propose a reinforcement learning (RL) fine-tuning framework that jointly optimizes task accuracy and calibration, supported by a holistic benchmark of reward designs. We demonstrate that our trained agents not only achieve superior calibration but also exhibit robust generalization from local training environments to noisy web settings and to distinct domains such as mathematical reasoning. Our results highlight the necessity of domain-specific calibration strategies for tool-use agents. More broadly, this work establishes a foundation for building self-aware agents that can reliably communicate uncertainty in high-stakes, real-world deployments.

La dicotomia della fiducia: analisi e mitigazione della scorretta calibrazione negli agenti con utilizzo di strumenti

The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents

Abstract

Support