エージェンシック不確実性定量化
Agentic Uncertainty Quantification
January 22, 2026
著者: Jiaxin Zhang, Prafulla Kumar Choubey, Kung-Hsiang Huang, Caiming Xiong, Chien-Sheng Wu
cs.AI
要旨
人工知能エージェントは長期的推論において印象的な能力を示しているが、その信頼性は「幻覚のスパイラル」によって深刻に阻害されている。これは初期の認識的誤りが不可逆的に伝播する現象である。既存手法はジレンマに直面している:不確実性定量化(UQ)手法は通常、受動的センサーとして機能し、リスクを診断するのみで対処せず、一方で自己反省メカニズムは継続的あるいは無目的な修正に陥りがちである。この隔たりを埋めるため、我々は言語化された不確実性を能動的双方向制御信号へ変換する、統一された二重過程エージェント不確実性定量化(AUQ)フレームワークを提案する。本アーキテクチャは二つの相補的メカニズムで構成される:暗黙的に言語化された信頼度と意味的説明を伝播し盲目的意思決定を防止するシステム1(不確実性対応メモリ、UAM)、およびこれらの説明を合理的手がかりとして利用し、必要時に限りターゲットを絞った推論時解決を誘発するシステム2(不確実性対応反省、UAR)である。これによりエージェントは効率的実行と深い熟考を動的にバランスさせることが可能となる。閉ループベンチマークおよび開放型深層研究タスクにおける大規模実験により、本訓練不要アプローチが優れた性能と軌道レベルの較正を達成することを実証した。我々はこの原理に基づくAUQフレームワークが、信頼性の高いエージェント実現に向けた重要な一歩であると確信する。
English
Although AI agents have demonstrated impressive capabilities in long-horizon reasoning, their reliability is severely hampered by the ``Spiral of Hallucination,'' where early epistemic errors propagate irreversibly. Existing methods face a dilemma: uncertainty quantification (UQ) methods typically act as passive sensors, only diagnosing risks without addressing them, while self-reflection mechanisms suffer from continuous or aimless corrections. To bridge this gap, we propose a unified Dual-Process Agentic UQ (AUQ) framework that transforms verbalized uncertainty into active, bi-directional control signals. Our architecture comprises two complementary mechanisms: System 1 (Uncertainty-Aware Memory, UAM), which implicitly propagates verbalized confidence and semantic explanations to prevent blind decision-making; and System 2 (Uncertainty-Aware Reflection, UAR), which utilizes these explanations as rational cues to trigger targeted inference-time resolution only when necessary. This enables the agent to balance efficient execution and deep deliberation dynamically. Extensive experiments on closed-loop benchmarks and open-ended deep research tasks demonstrate that our training-free approach achieves superior performance and trajectory-level calibration. We believe this principled framework AUQ represents a significant step towards reliable agents.