言葉から世界へ:大規模言語モデルは暗黙的なテキストベース世界モデルたり得るか
From Word to World: Can Large Language Models be Implicit Text-based World Models?
December 21, 2025
著者: Yixia Li, Hongru Wang, Jiahao Qiu, Zhenfei Yin, Dongdong Zhang, Cheng Qian, Zeping Li, Pony Ma, Guanhua Chen, Heng Ji, Mengdi Wang
cs.AI
要旨
エージェント的強化学習は経験駆動型のスケーリングに依存を強める一方で、現実環境は非適応的でカバレッジが限られ、スケーリングが困難なままである。世界モデルは模擬経験を通じて学習効率を向上させる可能性を秘めるが、大規模言語モデルがこの役割を確実に果たせるか、またどの条件下でエージェントに有意な利益をもたらすかは未解明である。本論文ではテキストベース環境においてこれらの問題を検討する。この環境は、言語モデリングを相互作用下での次状態予測として再解釈する制御された枠組みを提供する。我々はLLMベース世界モデルを評価する3段階のフレームワークを提案する:(i) 忠実性と一貫性、(ii) 拡張性と頑健性、(iii) エージェント有用性。5種類の代表的な環境での検証により、適切に訓練された世界モデルは首尾一貫した潜在状態を維持し、データ量とモデルサイズに応じて予測可能なスケーリングを示し、行動検証・合成軌道生成・強化学習のウォームスタートを通じてエージェント性能を向上させることを明らかにした。一方、これらの利益は行動カバレッジと環境複雑性に強く依存し、世界モデリングがエージェント学習を効果的に支援する境界条件を明確に示唆する。
English
Agentic reinforcement learning increasingly relies on experience-driven scaling, yet real-world environments remain non-adaptive, limited in coverage, and difficult to scale. World models offer a potential way to improve learning efficiency through simulated experience, but it remains unclear whether large language models can reliably serve this role and under what conditions they meaningfully benefit agents. We study these questions in text-based environments, which provide a controlled setting to reinterpret language modeling as next-state prediction under interaction. We introduce a three-level framework for evaluating LLM-based world models: (i) fidelity and consistency, (ii) scalability and robustness, and (iii) agent utility. Across five representative environments, we find that sufficiently trained world models maintain coherent latent state, scale predictably with data and model size, and improve agent performance via action verification, synthetic trajectory generation, and warm-starting reinforcement learning. Meanwhile, these gains depend critically on behavioral coverage and environment complexity, delineating clear boundry on when world modeling effectively supports agent learning.