ChatPaper.aiChatPaper

Agent-BRACE: Разделение представлений и действий в долгосрочных задачах с помощью вербализованной неопределенности состояния

Agent-BRACE: Decoupling Beliefs from Actions in Long-Horizon Tasks via Verbalized State Uncertainty

May 12, 2026
Авторы: Joykirat Singh, Zaid Khan, Archiki Prasad, Justin Chih-Yao Chen, Akshay Nambi, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal
cs.AI

Аннотация

Большие языковые модели (LLM) всё чаще применяются для долгосрочных задач в частично наблюдаемых средах, где они должны действовать, одновременно выводя и отслеживая сложное состояние среды на протяжении многих шагов. Это приводит к двум проблемам: частичная наблюдаемость требует сохранения неопределённости относительно ненаблюдаемых атрибутов мира, а длинная история взаимодействия вызывает неограниченный рост контекста, размывая релевантную задаче информацию. Принципиальным решением обеих проблем является состояние убеждения: апостериорное распределение по состояниям среды при условии прошлых наблюдений и действий, которое компактно кодирует историю для принятия решений независимо от длины эпизода. Однако в агентах на основе LLM открытый характер текста затрудняет представление такого распределения. Поэтому мы представляем Agent-BRACE: представление состояния убеждения агента посредством абстракции и оценки уверенности — метод, который разделяет LLM-агента на модель состояния убеждения и модель политики, совместно оптимизируемые с помощью обучения с подкреплением. Модель состояния убеждения создаёт структурную аппроксимацию распределения убеждений: набор атомарных утверждений на естественном языке о среде, каждое из которых снабжено вербализованной меткой уверенности по порядковой шкале от «уверенно» до «неизвестно». Модель политики использует это компактное, структурированное приближённое убеждение вместо полной истории, обучаясь выбирать действия в условиях явной неопределённости. В долгосрочных частично наблюдаемых воплощённых языковых средах Agent-BRACE достигает абсолютного улучшения в среднем на +14,5% (Qwen2.5-3B-Instruct) и +5,3% (Qwen3-4B-Instruct), превосходя сильные базовые методы обучения с подкреплением, сохраняя при этом почти постоянное окно контекста, не зависящее от длины эпизода. Дополнительный анализ показывает, что изученное убеждение становится всё более калиброванным по ходу эпизода по мере накопления свидетельств.
English
Large language models (LLMs) are increasingly deployed on long-horizon tasks in partially observable environments, where they must act while inferring and tracking a complex environment state over many steps. This leads to two challenges: partial observability requires maintaining uncertainty over unobserved world attributes, and long interaction history causes context to grow without bound, diluting task-relevant information. A principled solution to both challenges is a belief state: a posterior distribution over environment states given past observations and actions, which compactly encodes history for decision making regardless of episode length. In LLM agents, however, the open-ended nature of text makes it unclear how to represent such a distribution. Therefore, we introduce Agent-BRACE: Agent Belief state Representation via Abstraction and Confidence Estimation, a method that decouples an LLM agent into a belief state model and a policy model, jointly optimized via reinforcement learning. The belief state model produces a structured approximation of the belief distribution: a set of atomic natural language claims about the environment, each annotated with an ordinal verbalized certainty label ranging from certain to unknown. The policy model conditions on this compact, structured approximate belief rather than the full history, learning to select actions under explicit uncertainty. Across long-horizon, partially observable embodied language environments, Agent-BRACE achieves an average absolute improvement of +14.5% (Qwen2.5-3B-Instruct) and +5.3% (Qwen3-4B-Instruct), outperforming strong RL baselines while maintaining a near-constant context window independent of episode length. Further analysis shows that the learned belief becomes increasingly calibrated over the course of an episode as evidence accumulates.
PDF01May 14, 2026