Agent-BRACE : Découplage des croyances et des actions dans les tâches à long horizon via l'incertitude d'état verbalisée
Agent-BRACE: Decoupling Beliefs from Actions in Long-Horizon Tasks via Verbalized State Uncertainty
May 12, 2026
Auteurs: Joykirat Singh, Zaid Khan, Archiki Prasad, Justin Chih-Yao Chen, Akshay Nambi, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Résumé
Les grands modèles de langage (LLMs) sont de plus en plus déployés sur des tâches à long horizon dans des environnements partiellement observables, où ils doivent agir tout en inférant et en suivant un état complexe de l'environnement sur de nombreuses étapes. Cela soulève deux défis : l'observabilité partielle nécessite de maintenir une incertitude sur les attributs non observés du monde, et un long historique d'interactions entraîne une croissance illimitée du contexte, diluant les informations pertinentes pour la tâche. Une solution de principe à ces deux défis est un état de croyance : une distribution a posteriori sur les états de l'environnement étant donné les observations et actions passées, qui encode de manière compacte l'historique pour la prise de décision, quelle que soit la longueur de l'épisode. Cependant, dans les agents basés sur les LLMs, la nature ouverte du texte rend peu claire la manière de représenter une telle distribution. Par conséquent, nous introduisons Agent-BRACE : Représentation de l'État de Croyance d'un Agent via Abstraction et Estimation de Confiance, une méthode qui dissocie un agent LLM en un modèle d'état de croyance et un modèle de politique, optimisés conjointement par apprentissage par renforcement. Le modèle d'état de croyance produit une approximation structurée de la distribution de croyance : un ensemble d'affirmations atomiques en langage naturel sur l'environnement, chacune annotée avec un label de certitude ordinal verbalisé allant de certain à inconnu. Le modèle de politique se conditionne sur cette croyance approximative compacte et structurée plutôt que sur l'historique complet, apprenant à sélectionner des actions sous incertitude explicite. Dans des environnements langagiers incarnés partiellement observables et à long horizon, Agent-BRACE atteint une amélioration absolue moyenne de +14,5 % (Qwen2.5-3B-Instruct) et +5,3 % (Qwen3-4B-Instruct), surpassant les références RL solides tout en maintenant une fenêtre de contexte quasi constante indépendante de la longueur de l'épisode. Une analyse plus poussée montre que la croyance apprise devient de mieux en mieux calibrée au cours d'un épisode à mesure que les preuves s'accumulent.
English
Large language models (LLMs) are increasingly deployed on long-horizon tasks in partially observable environments, where they must act while inferring and tracking a complex environment state over many steps. This leads to two challenges: partial observability requires maintaining uncertainty over unobserved world attributes, and long interaction history causes context to grow without bound, diluting task-relevant information. A principled solution to both challenges is a belief state: a posterior distribution over environment states given past observations and actions, which compactly encodes history for decision making regardless of episode length. In LLM agents, however, the open-ended nature of text makes it unclear how to represent such a distribution. Therefore, we introduce Agent-BRACE: Agent Belief state Representation via Abstraction and Confidence Estimation, a method that decouples an LLM agent into a belief state model and a policy model, jointly optimized via reinforcement learning. The belief state model produces a structured approximation of the belief distribution: a set of atomic natural language claims about the environment, each annotated with an ordinal verbalized certainty label ranging from certain to unknown. The policy model conditions on this compact, structured approximate belief rather than the full history, learning to select actions under explicit uncertainty. Across long-horizon, partially observable embodied language environments, Agent-BRACE achieves an average absolute improvement of +14.5% (Qwen2.5-3B-Instruct) and +5.3% (Qwen3-4B-Instruct), outperforming strong RL baselines while maintaining a near-constant context window independent of episode length. Further analysis shows that the learned belief becomes increasingly calibrated over the course of an episode as evidence accumulates.