ChatPaper.aiChatPaper

信頼性の高い大規模言語モデルエージェントのための 還元的な不確実性モデリングに向けて

Towards Reducible Uncertainty Modeling for Reliable Large Language Model Agents

February 4, 2026
著者: Changdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li
cs.AI

要旨

大規模言語モデル(LLM)における不確実性定量化(UQ)は、日常的なLLMアプリケーションの安全対策における重要な構成要素である。しかし、LLMエージェントが高度に複雑なタスクで展開される機会が増えているにもかかわらず、UQ研究の大半は依然として単一ターンの質問応答を中心としている。本論文では、UQ研究は対話型エージェントを含む現実的な設定へ移行すべきであり、エージェントUQのための新たな理論的枠組みが必要であると主張する。本論文は、既存の多様なUQ設定を包含する、エージェントUQの最初の一般的な定式化を提示する。この定式化の下で、従来研究はLLMのUQを不確実性蓄積プロセスとして暗黙的に扱っていることを示し、この視点が開放世界における対話型エージェントでは破綻することを明らかにする。対照的に我々は、行動の「相互行為性」に着目してエージェントの軌跡における可縮小な不確実性を明示的にモデル化する、条件付き不確実性縮小プロセスという新たな視点を提案する。この視点から、LLMエージェント設定におけるUQ設計に実践的な指針を与える概念的枠組みの概要を示す。最後に、フロンティアLLM開発および分野特化型アプリケーションにおけるエージェントUQの実用的意義と、未解決の問題について結論づける。
English
Uncertainty quantification (UQ) for large language models (LLMs) is a key building block for safety guardrails of daily LLM applications. Yet, even as LLM agents are increasingly deployed in highly complex tasks, most UQ research still centers on single-turn question-answering. We argue that UQ research must shift to realistic settings with interactive agents, and that a new principled framework for agent UQ is needed. This paper presents the first general formulation of agent UQ that subsumes broad classes of existing UQ setups. Under this formulation, we show that prior works implicitly treat LLM UQ as an uncertainty accumulation process, a viewpoint that breaks down for interactive agents in an open world. In contrast, we propose a novel perspective, a conditional uncertainty reduction process, that explicitly models reducible uncertainty over an agent's trajectory by highlighting "interactivity" of actions. From this perspective, we outline a conceptual framework to provide actionable guidance for designing UQ in LLM agent setups. Finally, we conclude with practical implications of the agent UQ in frontier LLM development and domain-specific applications, as well as open remaining problems.
PDF72February 7, 2026