ChatPaper.aiChatPaper

Калибровка уверенности агента

Agentic Confidence Calibration

January 22, 2026
Авторы: Jiaxin Zhang, Caiming Xiong, Chien-Sheng Wu
cs.AI

Аннотация

Искусственные интеллектуальные агенты стремительно эволюционируют от пассивных языковых моделей к автономным системам, выполняющим сложные многошаговые задачи. Однако их излишняя уверенность в случае неудачи остается фундаментальным барьером для развертывания в высокорисковых сценариях. Существующие методы калибровки, созданные для статичных одношаговых выводов, не способны решить уникальные проблемы агентских систем, такие как накопление ошибок вдоль траекторий, неопределенность от внешних инструментов и непрозрачные режимы сбоев. Для решения этих проблем мы впервые вводим задачу Агентской Калибровки Уверенности и предлагаем Холистическую Калибровку Траекторий (HTC) — новый диагностический фреймворк, который извлекает богатые процессуальные признаки, от макродинамики до микростабильности, по всей траектории агента. Благодаря простой интерпретируемой модели HTC последовательно превосходит сильные базовые методы как в калибровке, так и в дискриминации на восьми бенчмарках, с использованием различных больших языковых моделей и в разнообразных агентских фреймворках. Помимо производительности, HTC предлагает три ключевых преимущества: она обеспечивает интерпретируемость, выявляя сигналы, стоящие за сбоями; позволяет достичь переносимости, применяясь в различных доменах без переобучения; и демонстрирует обобщающую способность через Общий Агентский Калибратор (GAC), который достигает наилучшей калибровки (наименьшей ECE) на непредсказанном бенчмарке GAIA. В совокупности эти результаты устанавливают новую процессо-ориентированную парадигму для калибровки уверенности, предлагая фреймворк для диагностики и повышения надежности ИИ-агентов.
English
AI agents are rapidly advancing from passive language models to autonomous systems executing complex, multi-step tasks. Yet their overconfidence in failure remains a fundamental barrier to deployment in high-stakes settings. Existing calibration methods, built for static single-turn outputs, cannot address the unique challenges of agentic systems, such as compounding errors along trajectories, uncertainty from external tools, and opaque failure modes. To address these challenges, we introduce, for the first time, the problem of Agentic Confidence Calibration and propose Holistic Trajectory Calibration (HTC), a novel diagnostic framework that extracts rich process-level features ranging from macro dynamics to micro stability across an agent's entire trajectory. Powered by a simple, interpretable model, HTC consistently surpasses strong baselines in both calibration and discrimination, across eight benchmarks, multiple LLMs, and diverse agent frameworks. Beyond performance, HTC delivers three essential advances: it provides interpretability by revealing the signals behind failure, enables transferability by applying across domains without retraining, and achieves generalization through a General Agent Calibrator (GAC) that achieves the best calibration (lowest ECE) on the out-of-domain GAIA benchmark. Together, these contributions establish a new process-centric paradigm for confidence calibration, providing a framework for diagnosing and enhancing the reliability of AI agents.
PDF11January 24, 2026