Versterkend Wereldmodel Leren voor op LLM's Gebaseerde Agenten
Reinforcement World Model Learning for LLM-based Agents
February 5, 2026
Auteurs: Xiao Yu, Baolin Peng, Ruize Xu, Yelong Shen, Pengcheng He, Suman Nath, Nikhil Singh, Jiangfeng Gao, Zhou Yu
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben sterke prestaties geleverd in taakgerichte toepassingen. In agent-gebaseerde settings hebben LLM's echter vaak moeite om actiegevolgen te anticiperen en zich aan te passen aan omgevingsdynamiek, wat de noodzaak van wereldmodelleringscapaciteiten in LLM-gebaseerde agenten benadrukt. Wij stellen Reinforcement World Model Learning (RWML) voor, een zelfgesuperviseerde methode die actie-geconditioneerde wereldmodellen leert voor LLM-gebaseerde agenten op tekstuele toestanden, gebruikmakend van sim-to-real gap beloningen. Onze methode brengt gesimuleerde volgende toestanden, gegenereerd door het model, in overeenstemming met gerealiseerde volgende toestanden waargenomen vanuit de omgeving, waardoor consistentie wordt gestimuleerd tussen interne wereldsimulaties en werkelijke omgevingsdynamiek in een voorgetrainde embeddingruimte. In tegenstelling tot volgende-toestand tokenvoorspelling, die token-level getrouwheid (d.w.z. het reproduceren van exacte bewoording) prioriteert boven semantische equivalentie en kan leiden tot modelcollaps, biedt onze methode een robuuster trainingssignaal en is empirisch minder vatbaar voor reward hacking dan LLM-as-a-judge. Wij evalueren onze methode op ALFWorld en τ^2 Bench en observeren significante verbeteringen ten opzichte van het basismodel, ondanks dat deze geheel zelfgesuperviseerd is. In combinatie met taak-succes beloningen presteert onze methode beter dan directe taak-succes belonings RL met respectievelijk 6.9 en 5.7 punten op ALFWorld en τ^2 Bench, terwijl de prestaties gelijk zijn aan training met expertdata.
English
Large language models (LLMs) have achieved strong performance in language-centric tasks. However, in agentic settings, LLMs often struggle to anticipate action consequences and adapt to environment dynamics, highlighting the need for world-modeling capabilities in LLM-based agents. We propose Reinforcement World Model Learning (RWML), a self-supervised method that learns action-conditioned world models for LLM-based agents on textual states using sim-to-real gap rewards. Our method aligns simulated next states produced by the model with realized next states observed from the environment, encouraging consistency between internal world simulations and actual environment dynamics in a pre-trained embedding space. Unlike next-state token prediction, which prioritizes token-level fidelity (i.e., reproducing exact wording) over semantic equivalence and can lead to model collapse, our method provides a more robust training signal and is empirically less susceptible to reward hacking than LLM-as-a-judge. We evaluate our method on ALFWorld and τ^2 Bench and observe significant gains over the base model, despite being entirely self-supervised. When combined with task-success rewards, our method outperforms direct task-success reward RL by 6.9 and 5.7 points on ALFWorld and τ^2 Bench respectively, while matching the performance of expert-data training.