ChatPaper.aiChatPaper

Агентное оценивание неопределенности

Agentic Uncertainty Quantification

January 22, 2026
Авторы: Jiaxin Zhang, Prafulla Kumar Choubey, Kung-Hsiang Huang, Caiming Xiong, Chien-Sheng Wu
cs.AI

Аннотация

Хотя ИИ-агенты продемонстрировали впечатляющие способности в решении задач, требующих долгосрочного планирования, их надежность серьезно ограничена феноменом «спирали галлюцинаций», когда первоначальные эпистемические ошибки необратимо усугубляются. Существующие методы сталкиваются с дилеммой: методы количественной оценки неопределенности (UQ) обычно выступают как пассивные сенсоры, лишь диагностируя риски, но не устраняя их, в то время как механизмы саморефлексии страдают от непрерывных или бесцельных корректировок. Для преодоления этого разрыва мы предлагаем унифицированную агентскую систему двупроцессной оценки неопределенности (AUQ), преобразующую вербализованную неопределенность в активные двунаправленные управляющие сигналы. Наша архитектура включает два взаимодополняющих механизма: Систему 1 (Память, осведомленная о неопределенности, UAM), которая неявно распространяет вербализованную уверенность и семантические объяснения для предотвращения слепого принятия решений; и Систему 2 (Рефлексия, осведомленная о неопределенности, UAR), которая использует эти объяснения в качестве рациональных сигналов для целенаправленного разрешения неопределенности во время вывода только при необходимости. Это позволяет агенту динамически балансировать между эффективным выполнением и глубоким обдумыванием. Многочисленные эксперименты на замкнутых бенчмарках и открытых исследовательских задачах демонстрируют, что наш подход, не требующий обучения, обеспечивает превосходную производительность и калибровку на уровне траекторий. Мы считаем, что данная принципиальная框架 AUQ представляет собой значительный шаг к созданию надежных агентов.
English
Although AI agents have demonstrated impressive capabilities in long-horizon reasoning, their reliability is severely hampered by the ``Spiral of Hallucination,'' where early epistemic errors propagate irreversibly. Existing methods face a dilemma: uncertainty quantification (UQ) methods typically act as passive sensors, only diagnosing risks without addressing them, while self-reflection mechanisms suffer from continuous or aimless corrections. To bridge this gap, we propose a unified Dual-Process Agentic UQ (AUQ) framework that transforms verbalized uncertainty into active, bi-directional control signals. Our architecture comprises two complementary mechanisms: System 1 (Uncertainty-Aware Memory, UAM), which implicitly propagates verbalized confidence and semantic explanations to prevent blind decision-making; and System 2 (Uncertainty-Aware Reflection, UAR), which utilizes these explanations as rational cues to trigger targeted inference-time resolution only when necessary. This enables the agent to balance efficient execution and deep deliberation dynamically. Extensive experiments on closed-loop benchmarks and open-ended deep research tasks demonstrate that our training-free approach achieves superior performance and trajectory-level calibration. We believe this principled framework AUQ represents a significant step towards reliable agents.
PDF11January 24, 2026