Agent-BRACE: Entkopplung von Überzeugungen und Handlungen in langfristigen Aufgaben durch verbalisierte Zustandsunsicherheit
Agent-BRACE: Decoupling Beliefs from Actions in Long-Horizon Tasks via Verbalized State Uncertainty
May 12, 2026
Autoren: Joykirat Singh, Zaid Khan, Archiki Prasad, Justin Chih-Yao Chen, Akshay Nambi, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal
cs.AI
Zusammenfassung
Große Sprachmodelle (Large Language Models, LLMs) werden zunehmend für langfristige Aufgaben in teilweise beobachtbaren Umgebungen eingesetzt, in denen sie handeln müssen, während sie über viele Schritte hinweg einen komplexen Umgebungszustand ableiten und verfolgen. Dies führt zu zwei Herausforderungen: Teilweise Beobachtbarkeit erfordert die Aufrechterhaltung von Unsicherheit über unbeobachtete Weltattribute, und eine lange Interaktionshistorie führt dazu, dass der Kontext unbegrenzt wächst und aufgabenrelevante Informationen verwässert. Eine prinzipielle Lösung für beide Herausforderungen ist ein Glaubenszustand: eine A-posteriori-Verteilung über Umgebungszustände unter Berücksichtigung vergangener Beobachtungen und Aktionen, die die Historie kompakt für die Entscheidungsfindung kodiert, unabhängig von der Episodenlänge. In LLM-Agenten macht jedoch die offene Natur von Text unklar, wie eine solche Verteilung dargestellt werden kann. Daher führen wir Agent-BRACE ein: Agent Belief state Representation via Abstraction and Confidence Estimation (Agenten-Glaubenszustandsrepräsentation durch Abstraktion und Konfidenzschätzung), eine Methode, die einen LLM-Agenten in ein Glaubenszustandsmodell und ein Politikmodell entkoppelt, die gemeinsam mittels Verstärkungslernen optimiert werden. Das Glaubenszustandsmodell erzeugt eine strukturierte Approximation der Glaubensverteilung: eine Menge atomarer natürlichsprachlicher Behauptungen über die Umgebung, jede annotiert mit einem ordinalen, verbalisierten Sicherheitshinweis, der von sicher bis unbekannt reicht. Das Politikmodell konditioniert auf diesen kompakten, strukturierten approximativen Glaubenszustand anstelle der vollständigen Historie und lernt, Aktionen unter expliziter Unsicherheit auszuwählen. In langfristigen, teilweise beobachtbaren verkörperten Sprachumgebungen erreicht Agent-BRACE eine durchschnittliche absolute Verbesserung von +14,5 % (Qwen2.5-3B-Instruct) und +5,3 % (Qwen3-4B-Instruct) und übertrifft damit starke RL-Baselines, während es ein nahezu konstantes Kontextfenster unabhängig von der Episodenlänge beibehält. Weitere Analysen zeigen, dass der erlernte Glaubenszustand im Laufe einer Episode mit zunehmender Evidenzakkumulation immer besser kalibriert wird.
English
Large language models (LLMs) are increasingly deployed on long-horizon tasks in partially observable environments, where they must act while inferring and tracking a complex environment state over many steps. This leads to two challenges: partial observability requires maintaining uncertainty over unobserved world attributes, and long interaction history causes context to grow without bound, diluting task-relevant information. A principled solution to both challenges is a belief state: a posterior distribution over environment states given past observations and actions, which compactly encodes history for decision making regardless of episode length. In LLM agents, however, the open-ended nature of text makes it unclear how to represent such a distribution. Therefore, we introduce Agent-BRACE: Agent Belief state Representation via Abstraction and Confidence Estimation, a method that decouples an LLM agent into a belief state model and a policy model, jointly optimized via reinforcement learning. The belief state model produces a structured approximation of the belief distribution: a set of atomic natural language claims about the environment, each annotated with an ordinal verbalized certainty label ranging from certain to unknown. The policy model conditions on this compact, structured approximate belief rather than the full history, learning to select actions under explicit uncertainty. Across long-horizon, partially observable embodied language environments, Agent-BRACE achieves an average absolute improvement of +14.5% (Qwen2.5-3B-Instruct) and +5.3% (Qwen3-4B-Instruct), outperforming strong RL baselines while maintaining a near-constant context window independent of episode length. Further analysis shows that the learned belief becomes increasingly calibrated over the course of an episode as evidence accumulates.