Calibração da Confiança Agência

Resumo

Os agentes de IA estão a evoluir rapidamente de modelos de linguagem passivos para sistemas autónomos que executam tarefas complexas e multi-etapas. No entanto, a sua excessiva confiança perante falhas continua a ser uma barreira fundamental à sua implementação em contextos de alto risco. Os métodos de calibração existentes, concebidos para saídas estáticas de turno único, não conseguem abordar os desafios únicos dos sistemas agentivos, como erros compostos ao longo de trajetórias, incerteza de ferramentas externas e modos de falha opacos. Para enfrentar estes desafios, introduzimos, pela primeira vez, o problema da Calibração de Confiança Agentiva e propomos a Calibração Holística de Trajetória (HTC), uma nova estrutura de diagnóstico que extrai características ricas a nível de processo, desde dinâmicas macro até à estabilidade micro, ao longo de toda a trajetória de um agente. Alimentado por um modelo simples e interpretável, o HTC supera consistentemente fortes linhas de base tanto em calibração como em discriminação, através de oito benchmarks, múltiplos LLMs e diversas estruturas de agentes. Para além do desempenho, o HTC oferece três avanços essenciais: fornece interpretabilidade ao revelar os sinais por trás das falhas, permite transferibilidade ao aplicar-se em vários domínios sem necessidade de retreino e alcança generalização através de um Calibrador de Agente Geral (GAC) que atinge a melhor calibração (ECE mais baixo) no benchmark GAIA fora do domínio. Em conjunto, estas contribuições estabelecem um novo paradigma de calibração de confiança centrado no processo, fornecendo uma estrutura para diagnosticar e melhorar a fiabilidade dos agentes de IA.

English

AI agents are rapidly advancing from passive language models to autonomous systems executing complex, multi-step tasks. Yet their overconfidence in failure remains a fundamental barrier to deployment in high-stakes settings. Existing calibration methods, built for static single-turn outputs, cannot address the unique challenges of agentic systems, such as compounding errors along trajectories, uncertainty from external tools, and opaque failure modes. To address these challenges, we introduce, for the first time, the problem of Agentic Confidence Calibration and propose Holistic Trajectory Calibration (HTC), a novel diagnostic framework that extracts rich process-level features ranging from macro dynamics to micro stability across an agent's entire trajectory. Powered by a simple, interpretable model, HTC consistently surpasses strong baselines in both calibration and discrimination, across eight benchmarks, multiple LLMs, and diverse agent frameworks. Beyond performance, HTC delivers three essential advances: it provides interpretability by revealing the signals behind failure, enables transferability by applying across domains without retraining, and achieves generalization through a General Agent Calibrator (GAC) that achieves the best calibration (lowest ECE) on the out-of-domain GAIA benchmark. Together, these contributions establish a new process-centric paradigm for confidence calibration, providing a framework for diagnosing and enhancing the reliability of AI agents.