Calibrazione della Fiducia Agente-Specifica

Abstract

Gli agenti di IA stanno progredendo rapidamente da modelli linguistici passivi a sistemi autonomi che eseguono compiti complessi e multi-step. Tuttavia, la loro eccessiva sicurezza negli errori rimane una barriera fondamentale per il dispiegamento in contesti ad alto rischio. I metodi di calibrazione esistenti, concepiti per output statici a turno singolo, non possono affrontare le sfide uniche dei sistemi agentici, come errori che si accumulano lungo le traiettorie, l'incertezza derivante da strumenti esterni e le modalità di fallimento opache. Per affrontare queste sfide, introduciamo per la prima volta il problema della Calibrazione della Fiducia Agente e proponiamo la Calibrazione Olistica della Traiettoria (HTC), un nuovo framework diagnostico che estrae ricche caratteristiche a livello di processo, che vanno dalle dinamiche macro alla stabilità micro, lungo l'intera traiettoria di un agente. Sostenuto da un modello semplice e interpretabile, HTC supera costantemente baseline robuste sia in calibrazione che in discriminazione, attraverso otto benchmark, molteplici LLM e diversi framework agentici. Oltre alle prestazioni, HTC offre tre progressi essenziali: fornisce interpretabilità rivelando i segnali dietro il fallimento, abilita la trasferibilità applicandosi tra domini senza riaddestramento e raggiunge la generalizzazione attraverso un Calibratore Agente Generale (GAC) che ottiene la migliore calibrazione (ECE più basso) sul benchmark fuori dominio GAIA. Nel complesso, questi contributi stabiliscono un nuovo paradigma di calibrazione della fiducia centrato sul processo, fornendo un framework per diagnosticare e migliorare l'affidabilità degli agenti di IA.

English

AI agents are rapidly advancing from passive language models to autonomous systems executing complex, multi-step tasks. Yet their overconfidence in failure remains a fundamental barrier to deployment in high-stakes settings. Existing calibration methods, built for static single-turn outputs, cannot address the unique challenges of agentic systems, such as compounding errors along trajectories, uncertainty from external tools, and opaque failure modes. To address these challenges, we introduce, for the first time, the problem of Agentic Confidence Calibration and propose Holistic Trajectory Calibration (HTC), a novel diagnostic framework that extracts rich process-level features ranging from macro dynamics to micro stability across an agent's entire trajectory. Powered by a simple, interpretable model, HTC consistently surpasses strong baselines in both calibration and discrimination, across eight benchmarks, multiple LLMs, and diverse agent frameworks. Beyond performance, HTC delivers three essential advances: it provides interpretability by revealing the signals behind failure, enables transferability by applying across domains without retraining, and achieves generalization through a General Agent Calibrator (GAC) that achieves the best calibration (lowest ECE) on the out-of-domain GAIA benchmark. Together, these contributions establish a new process-centric paradigm for confidence calibration, providing a framework for diagnosing and enhancing the reliability of AI agents.