Apprentissage de Modèles du Monde par Renforcement pour les Agents basés sur LLM
Reinforcement World Model Learning for LLM-based Agents
February 5, 2026
papers.authors: Xiao Yu, Baolin Peng, Ruize Xu, Yelong Shen, Pengcheng He, Suman Nath, Nikhil Singh, Jiangfeng Gao, Zhou Yu
cs.AI
papers.abstract
Les grands modèles de langage (LLM) ont obtenu des performances remarquables dans les tâches centrées sur le langage. Cependant, dans des cadres agentiques, les LLM peinent souvent à anticiper les conséquences des actions et à s'adapter à la dynamique de l'environnement, soulignant le besoin de capacités de modélisation du monde pour les agents basés sur LLM. Nous proposons l'Apprentissage de Modèles du Monde par Renforcement (RWML), une méthode auto-supervisée qui apprend des modèles du monde conditionnés par les actions pour les agents basés sur LLM sur des états textuels en utilisant des récompenses basées sur l'écart simulation-réalité. Notre méthode aligne les états suivants simulés produits par le modèle avec les états suivants réalisés observés depuis l'environnement, encourageant la cohérence entre les simulations internes du monde et la dynamique réelle de l'environnement dans un espace d'embedding pré-entraîné. Contrairement à la prédiction de tokens de l'état suivant, qui privilégie la fidélité au niveau des tokens (c'est-à-dire reproduire la formulation exacte) plutôt que l'équivalence sémantique et peut conduire à l'effondrement du modèle, notre méthode fournit un signal d'entraînement plus robuste et s'avère empiriquement moins sensible au détournement de récompense que les approches de type "LLM-comme-juge". Nous évaluons notre méthode sur ALFWorld et τ² Bench et observons des gains significatifs par rapport au modèle de base, bien qu'elle soit entièrement auto-supervisée. Combinée à des récompenses de succès de tâche, notre méthode surpasse l'apprentissage par renforcement direct avec récompense de succès de tâche de 6,9 et 5,7 points sur ALFWorld et τ² Bench respectivement, tout en égalant les performances de l'entraînement sur données expertes.
English
Large language models (LLMs) have achieved strong performance in language-centric tasks. However, in agentic settings, LLMs often struggle to anticipate action consequences and adapt to environment dynamics, highlighting the need for world-modeling capabilities in LLM-based agents. We propose Reinforcement World Model Learning (RWML), a self-supervised method that learns action-conditioned world models for LLM-based agents on textual states using sim-to-real gap rewards. Our method aligns simulated next states produced by the model with realized next states observed from the environment, encouraging consistency between internal world simulations and actual environment dynamics in a pre-trained embedding space. Unlike next-state token prediction, which prioritizes token-level fidelity (i.e., reproducing exact wording) over semantic equivalence and can lead to model collapse, our method provides a more robust training signal and is empirically less susceptible to reward hacking than LLM-as-a-judge. We evaluate our method on ALFWorld and τ^2 Bench and observe significant gains over the base model, despite being entirely self-supervised. When combined with task-success rewards, our method outperforms direct task-success reward RL by 6.9 and 5.7 points on ALFWorld and τ^2 Bench respectively, while matching the performance of expert-data training.