Von Wort zu Welt: Können große Sprachmodelle implizite textbasierte Weltmodelle sein?
From Word to World: Can Large Language Models be Implicit Text-based World Models?
December 21, 2025
papers.authors: Yixia Li, Hongru Wang, Jiahao Qiu, Zhenfei Yin, Dongdong Zhang, Cheng Qian, Zeping Li, Pony Ma, Guanhua Chen, Heng Ji, Mengdi Wang
cs.AI
papers.abstract
Agentisches Reinforcement Learning setzt zunehmend auf erfahrungsbasiertes Skalieren, doch reale Umgebungen bleiben nicht-adaptiv, in ihrer Abdeckung begrenzt und schwer zu skalieren. Weltmodelle bieten einen potenziellen Weg, die Lerneffizienz durch simulierte Erfahrung zu verbessern, doch es ist unklar, ob große Sprachmodelle diese Rolle zuverlässig einnehmen können und unter welchen Bedingungen sie Agenten einen bedeutungsvollen Nutzen bringen. Wir untersuchen diese Fragen in textbasierten Umgebungen, die einen kontrollierten Rahmen bieten, um Sprachmodellierung als Next-State-Prädiktion unter Interaktion neu zu interpretieren. Wir führen ein dreistufiges Framework zur Bewertung von LLM-basierten Weltmodellen ein: (i) Treue und Konsistenz, (ii) Skalierbarkeit und Robustheit sowie (iii) Agentennutzen. Über fünf repräsentative Umgebungen hinweg stellen wir fest, dass ausreichend trainierte Weltmodelle kohärente latente Zustände aufrechterhalten, vorhersehbar mit Daten- und Modellgröße skalieren und die Agentenleistung durch Aktionsverifikation, synthetische Trajektoriengenerierung und Warm-Start von Reinforcement Learning verbessern. Gleichzeitig hängen diese Gewinne kritisch von der Verhaltensabdeckung und der Umgebungskomplexität ab, was eine klare Grenze dafür absteckt, wann Weltmodellierung das Agentenlernen effektiv unterstützt.
English
Agentic reinforcement learning increasingly relies on experience-driven scaling, yet real-world environments remain non-adaptive, limited in coverage, and difficult to scale. World models offer a potential way to improve learning efficiency through simulated experience, but it remains unclear whether large language models can reliably serve this role and under what conditions they meaningfully benefit agents. We study these questions in text-based environments, which provide a controlled setting to reinterpret language modeling as next-state prediction under interaction. We introduce a three-level framework for evaluating LLM-based world models: (i) fidelity and consistency, (ii) scalability and robustness, and (iii) agent utility. Across five representative environments, we find that sufficiently trained world models maintain coherent latent state, scale predictably with data and model size, and improve agent performance via action verification, synthetic trajectory generation, and warm-starting reinforcement learning. Meanwhile, these gains depend critically on behavioral coverage and environment complexity, delineating clear boundry on when world modeling effectively supports agent learning.