ChatPaper.aiChatPaper

신뢰할 수 있는 대규모 언어 모델 에이전트를 위한 축소 가능 불확실성 모델링

Towards Reducible Uncertainty Modeling for Reliable Large Language Model Agents

February 4, 2026
저자: Changdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li
cs.AI

초록

대규모 언어 모델(LLM)의 불확실성 정량화(UQ)는 일상적인 LLM 응용 프로그램의 안전 장치를 위한 핵심 구성 요소입니다. 그러나 LLM 에이전트가 매우 복잡한 작업에 점점 더 많이 배포되고 있음에도 불구하고, 대부분의 UQ 연구는 여전히 단일 턴 질의응답에 집중되어 있습니다. 우리는 UQ 연구가 상호작용형 에이전트가 존재하는 현실적인 설정으로 전환되어야 하며, 에이전트 UQ를 위한 새로운 원칙적 프레임워크가 필요하다고 주장합니다. 본 논문은 기존 UQ 설정의 광범위한 범주를 포괄하는 에이전트 UQ의 첫 번째 일반적인 공식을 제시합니다. 이 공식 아래에서, 우리는 기존 연구들이 LLM UQ를 암묵적으로 불확실성 누적 과정으로 취급하며, 이 관점은 개방형 세계의 상호작용형 에이전트에게는 적용되지 않음을 보여줍니다. 대조적으로, 우리는 행동의 '상호작용성'을 강조함으로써 에이전트의 궤적에 따른 감소 가능한 불확실성을 명시적으로 모델링하는 새로운 관점, 즉 조건부 불확실성 감소 과정을 제안합니다. 이 관점에서 우리는 LLM 에이전트 설정에서 UQ를 설계하기 위한 실행 가능한 지침을 제공하는 개념적 프레임워크의 개요를 제시합니다. 마지막으로, 우리는 첨단 LLM 개발 및 도메인 특화 응용 프로그램에서의 에이전트 UQ의 실질적 함의와 함께 남아 있는 공개 문제들에 대해 결론을 맺습니다.
English
Uncertainty quantification (UQ) for large language models (LLMs) is a key building block for safety guardrails of daily LLM applications. Yet, even as LLM agents are increasingly deployed in highly complex tasks, most UQ research still centers on single-turn question-answering. We argue that UQ research must shift to realistic settings with interactive agents, and that a new principled framework for agent UQ is needed. This paper presents the first general formulation of agent UQ that subsumes broad classes of existing UQ setups. Under this formulation, we show that prior works implicitly treat LLM UQ as an uncertainty accumulation process, a viewpoint that breaks down for interactive agents in an open world. In contrast, we propose a novel perspective, a conditional uncertainty reduction process, that explicitly models reducible uncertainty over an agent's trajectory by highlighting "interactivity" of actions. From this perspective, we outline a conceptual framework to provide actionable guidance for designing UQ in LLM agent setups. Finally, we conclude with practical implications of the agent UQ in frontier LLM development and domain-specific applications, as well as open remaining problems.
PDF72February 7, 2026