Agentisch Betrouwbaarheidskalibratie

Samenvatting

AI-agenten evolueren snel van passieve taalmodelen naar autonome systemen die complexe, meerstaps taken uitvoeren. Toch blijft hun overmatig zelfvertrouwen bij falen een fundamentele barrière voor inzet in hoog-risico omgevingen. Bestaande kalibratiemethoden, ontwikkeld voor statische enkelvoudige outputs, kunnen de unieke uitdagingen van agent-systemen niet aanpakken, zoals oplopende fouten langs trajecten, onzekerheid van externe tools en ondoorzichtige faalmodi. Om deze uitdagingen het hoofd te bieden, introduceren wij voor het eerst het probleem van Agentic Confidence Calibration en stellen Holistic Trajectory Calibration (HTC) voor, een nieuw diagnostisch raamwerk dat rijke procesniveau-featurees extraheert, variërend van macro-dynamiek tot micro-stabiliteit, over het volledige traject van een agent. Aangedreven door een eenvoudig, interpreteerbaar model, overtreft HTC consequent sterke baseline-methoden in zowel kalibratie als discriminatie, over acht benchmarks, meerdre grote taalmodelen (LLMs) en diverse agent-frameworks. Naast prestaties biedt HTC drie essentiële verbeteringen: het verschaft interpreteerbaarheid door de signalen achter falen bloot te leggen, stelt overdraagbaarheid mogelijk door toepassing over domeinen heen zonder hertraining, en bereikt generalisatie via een General Agent Calibrator (GAC) die de beste kalibratie (laagste ECE) behaalt op de out-of-domain GAIA benchmark. Gezamenlijk vestigen deze bijdragen een nieuw proces-gecentreerd paradigma voor betrouwbaarheidskalibratie, en bieden een raamwerk voor het diagnosticeren en verbeteren van de betrouwbaarheid van AI-agenten.

English

AI agents are rapidly advancing from passive language models to autonomous systems executing complex, multi-step tasks. Yet their overconfidence in failure remains a fundamental barrier to deployment in high-stakes settings. Existing calibration methods, built for static single-turn outputs, cannot address the unique challenges of agentic systems, such as compounding errors along trajectories, uncertainty from external tools, and opaque failure modes. To address these challenges, we introduce, for the first time, the problem of Agentic Confidence Calibration and propose Holistic Trajectory Calibration (HTC), a novel diagnostic framework that extracts rich process-level features ranging from macro dynamics to micro stability across an agent's entire trajectory. Powered by a simple, interpretable model, HTC consistently surpasses strong baselines in both calibration and discrimination, across eight benchmarks, multiple LLMs, and diverse agent frameworks. Beyond performance, HTC delivers three essential advances: it provides interpretability by revealing the signals behind failure, enables transferability by applying across domains without retraining, and achieves generalization through a General Agent Calibrator (GAC) that achieves the best calibration (lowest ECE) on the out-of-domain GAIA benchmark. Together, these contributions establish a new process-centric paradigm for confidence calibration, providing a framework for diagnosing and enhancing the reliability of AI agents.