Agent-BRACE: Desacoplando las Creencias de las Acciones en Tareas de Horizonte Largo mediante la Incertidumbre de Estado Verbalizada
Agent-BRACE: Decoupling Beliefs from Actions in Long-Horizon Tasks via Verbalized State Uncertainty
May 12, 2026
Autores: Joykirat Singh, Zaid Khan, Archiki Prasad, Justin Chih-Yao Chen, Akshay Nambi, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) se implementan cada vez más en tareas de largo horizonte en entornos parcialmente observables, donde deben actuar mientras infieren y rastrean un estado ambiental complejo a lo largo de muchos pasos. Esto conduce a dos desafíos: la observabilidad parcial requiere mantener incertidumbre sobre atributos del mundo no observados, y el historial de interacción prolongado hace que el contexto crezca sin límite, diluyendo la información relevante para la tarea. Una solución fundamentada para ambos desafíos es un estado de creencia: una distribución posterior sobre los estados del ambiente dadas observaciones y acciones pasadas, que codifica de forma compacta el historial para la toma de decisiones independientemente de la duración del episodio. En los agentes LLM, sin embargo, la naturaleza abierta del texto hace que no sea claro cómo representar dicha distribución. Por lo tanto, presentamos Agent-BRACE: Representación del Estado de Creencia del Agente mediante Abstracción y Estimación de Confianza, un método que desacopla un agente LLM en un modelo de estado de creencia y un modelo de política, optimizados conjuntamente mediante aprendizaje por refuerzo. El modelo de estado de creencia produce una aproximación estructurada de la distribución de creencia: un conjunto de afirmaciones atómicas en lenguaje natural sobre el entorno, cada una anotada con una etiqueta de certeza verbalizada ordinal que va desde cierto hasta desconocido. El modelo de política se condiciona en esta creencia aproximada compacta y estructurada en lugar del historial completo, aprendiendo a seleccionar acciones bajo incertidumbre explícita. En entornos de lenguaje incorporado de largo horizonte y parcialmente observables, Agent-BRACE logra una mejora absoluta promedio de +14.5% (Qwen2.5-3B-Instruct) y +5.3% (Qwen3-4B-Instruct), superando a líneas base sólidas de RL mientras mantiene una ventana de contexto casi constante independiente de la duración del episodio. Análisis adicionales muestran que la creencia aprendida se vuelve cada vez más calibrada a lo largo de un episodio a medida que se acumula evidencia.
English
Large language models (LLMs) are increasingly deployed on long-horizon tasks in partially observable environments, where they must act while inferring and tracking a complex environment state over many steps. This leads to two challenges: partial observability requires maintaining uncertainty over unobserved world attributes, and long interaction history causes context to grow without bound, diluting task-relevant information. A principled solution to both challenges is a belief state: a posterior distribution over environment states given past observations and actions, which compactly encodes history for decision making regardless of episode length. In LLM agents, however, the open-ended nature of text makes it unclear how to represent such a distribution. Therefore, we introduce Agent-BRACE: Agent Belief state Representation via Abstraction and Confidence Estimation, a method that decouples an LLM agent into a belief state model and a policy model, jointly optimized via reinforcement learning. The belief state model produces a structured approximation of the belief distribution: a set of atomic natural language claims about the environment, each annotated with an ordinal verbalized certainty label ranging from certain to unknown. The policy model conditions on this compact, structured approximate belief rather than the full history, learning to select actions under explicit uncertainty. Across long-horizon, partially observable embodied language environments, Agent-BRACE achieves an average absolute improvement of +14.5% (Qwen2.5-3B-Instruct) and +5.3% (Qwen3-4B-Instruct), outperforming strong RL baselines while maintaining a near-constant context window independent of episode length. Further analysis shows that the learned belief becomes increasingly calibrated over the course of an episode as evidence accumulates.