Du mot au monde : les grands modèles de langage peuvent-ils être des modèles du monde implicites basés sur le texte ?
From Word to World: Can Large Language Models be Implicit Text-based World Models?
December 21, 2025
papers.authors: Yixia Li, Hongru Wang, Jiahao Qiu, Zhenfei Yin, Dongdong Zhang, Cheng Qian, Zeping Li, Pony Ma, Guanhua Chen, Heng Ji, Mengdi Wang
cs.AI
papers.abstract
L'apprentissage par renforcement agentique repose de plus en plus sur la mise à l'échelle par l'expérience, mais les environnements réels restent non adaptatifs, limités en couverture et difficiles à évoluer. Les modèles du monde offrent une voie potentielle pour améliorer l'efficacité de l'apprentissage grâce à l'expérience simulée, mais on ignore encore si les grands modèles linguistiques peuvent remplir ce rôle de manière fiable et dans quelles conditions ils profitent significativement aux agents. Nous étudions ces questions dans des environnements textuels, qui fournissent un cadre contrôlé pour réinterpréter la modélisation linguistique comme une prédiction d'état suivant sous interaction. Nous introduisons un cadre d'évaluation à trois niveaux pour les modèles du monde basés sur les LLM : (i) fidélité et cohérence, (ii) évolutivité et robustesse, et (iii) utilité pour l'agent. Sur cinq environnements représentatifs, nous constatons que des modèles du monde suffisamment entraînés maintiennent un état latent cohérent, évoluent de manière prévisible avec les données et la taille du modèle, et améliorent les performances des agents via la vérification des actions, la génération de trajectoires synthétiques et l'amorçage de l'apprentissage par renforcement. Parallèlement, ces gains dépendent crucialement de la couverture comportementale et de la complexité de l'environnement, délimitant une frontière claire sur le moment où la modélisation du monde soutient efficacement l'apprentissage des agents.
English
Agentic reinforcement learning increasingly relies on experience-driven scaling, yet real-world environments remain non-adaptive, limited in coverage, and difficult to scale. World models offer a potential way to improve learning efficiency through simulated experience, but it remains unclear whether large language models can reliably serve this role and under what conditions they meaningfully benefit agents. We study these questions in text-based environments, which provide a controlled setting to reinterpret language modeling as next-state prediction under interaction. We introduce a three-level framework for evaluating LLM-based world models: (i) fidelity and consistency, (ii) scalability and robustness, and (iii) agent utility. Across five representative environments, we find that sufficiently trained world models maintain coherent latent state, scale predictably with data and model size, and improve agent performance via action verification, synthetic trajectory generation, and warm-starting reinforcement learning. Meanwhile, these gains depend critically on behavioral coverage and environment complexity, delineating clear boundry on when world modeling effectively supports agent learning.