ChatPaper.aiChatPaper

Verstärkendes Weltmodell-Lernen für LLM-basierte Agenten

Reinforcement World Model Learning for LLM-based Agents

February 5, 2026
papers.authors: Xiao Yu, Baolin Peng, Ruize Xu, Yelong Shen, Pengcheng He, Suman Nath, Nikhil Singh, Jiangfeng Gao, Zhou Yu
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) haben bei sprachzentrierten Aufgaben beeindruckende Leistungen erzielt. In agentenbasierten Umgebungen jedoch haben LLMs oft Schwierigkeiten, Handlungskonsequenzen vorherzusehen und sich an Umweltdynamiken anzupassen, was die Notwendigkeit von Weltmodellierungsfähigkeiten für LLM-basierte Agenten unterstreicht. Wir schlagen Reinforcement World Model Learning (RWML) vor, eine selbstüberwachte Methode, die aktionskonditionierte Weltmodelle für LLM-basierte Agenten auf textuellen Zuständen unter Verwendung von Sim-to-Real-Gap-Belohnungen lernt. Unsere Methode richtet simulierte Folgezustände, die vom Modell erzeugt werden, an realisierten Folgezuständen aus, die in der Umwelt beobachtet werden, und fördert so die Konsistenz zwischen internen Weltsimulationen und tatsächlicher Umweltdynamik in einem vortrainierten Einbettungsraum. Im Gegensatz zur nächsten Zustands-Token-Vorhersage, die Token-Level-Treue (d.h. die Reproduktion exakter Formulierungen) über semantische Äquivalenz stellt und zu Modellkollaps führen kann, liefert unsere Methode ein robusteres Trainingssignal und ist empirisch weniger anfällig für Reward Hacking als LLM-as-a-Judge. Wir evaluieren unsere Methode auf ALFWorld und τ^2 Bench und beobachten signifikante Verbesserungen gegenüber dem Basismodell, obwohl sie vollständig selbstüberwacht ist. In Kombination mit Aufgaben-Erfolgs-Belohnungen übertrifft unsere Methode direktes Reinforcement Learning mit Aufgaben-Erfolgs-Belohnung auf ALFWorld und τ^2 Bench um 6,9 bzw. 5,7 Punkte, bei gleichzeitiger Gleichwertigkeit mit Expertendaten-Training.
English
Large language models (LLMs) have achieved strong performance in language-centric tasks. However, in agentic settings, LLMs often struggle to anticipate action consequences and adapt to environment dynamics, highlighting the need for world-modeling capabilities in LLM-based agents. We propose Reinforcement World Model Learning (RWML), a self-supervised method that learns action-conditioned world models for LLM-based agents on textual states using sim-to-real gap rewards. Our method aligns simulated next states produced by the model with realized next states observed from the environment, encouraging consistency between internal world simulations and actual environment dynamics in a pre-trained embedding space. Unlike next-state token prediction, which prioritizes token-level fidelity (i.e., reproducing exact wording) over semantic equivalence and can lead to model collapse, our method provides a more robust training signal and is empirically less susceptible to reward hacking than LLM-as-a-judge. We evaluate our method on ALFWorld and τ^2 Bench and observe significant gains over the base model, despite being entirely self-supervised. When combined with task-success rewards, our method outperforms direct task-success reward RL by 6.9 and 5.7 points on ALFWorld and τ^2 Bench respectively, while matching the performance of expert-data training.
PDF112February 7, 2026