От слова к миру: Могут ли большие языковые модели быть имплицитными текстовыми моделями мира?
From Word to World: Can Large Language Models be Implicit Text-based World Models?
December 21, 2025
Авторы: Yixia Li, Hongru Wang, Jiahao Qiu, Zhenfei Yin, Dongdong Zhang, Cheng Qian, Zeping Li, Pony Ma, Guanhua Chen, Heng Ji, Mengdi Wang
cs.AI
Аннотация
Агентное обучение с подкреплением все больше полагается на масштабирование, основанное на опыте, однако реальные среды остаются неадаптивными, ограниченными по охвату и сложными для масштабирования. Мировые модели предлагают потенциальный путь повышения эффективности обучения через симулированный опыт, но остается неясным, могут ли большие языковые модели надежно выполнять эту роль и при каких условиях они приносят агентам значимую пользу. Мы исследуем эти вопросы в текстовых средах, которые предоставляют контролируемые условия для переосмысления языкового моделирования как предсказания следующего состояния в процессе взаимодействия. Мы представляем трехуровневую структуру для оценки мировых моделей на основе БЯМ: (i) точность и согласованность, (ii) масштабируемость и устойчивость, и (iii) полезность для агента. В пяти репрезентативных средах мы обнаруживаем, что достаточно обученные мировые модели сохраняют согласованное латентное состояние, масштабируются предсказуемо с объемом данных и размером модели и улучшают производительность агента через проверку действий, генерацию синтетических траекторий и предварительную инициализацию обучения с подкреплением. В то же время эти преимущества критически зависят от поведенческого охвата и сложности среды, определяя четкие границы того, когда моделирование мира эффективно поддерживает обучение агента.
English
Agentic reinforcement learning increasingly relies on experience-driven scaling, yet real-world environments remain non-adaptive, limited in coverage, and difficult to scale. World models offer a potential way to improve learning efficiency through simulated experience, but it remains unclear whether large language models can reliably serve this role and under what conditions they meaningfully benefit agents. We study these questions in text-based environments, which provide a controlled setting to reinterpret language modeling as next-state prediction under interaction. We introduce a three-level framework for evaluating LLM-based world models: (i) fidelity and consistency, (ii) scalability and robustness, and (iii) agent utility. Across five representative environments, we find that sufficiently trained world models maintain coherent latent state, scale predictably with data and model size, and improve agent performance via action verification, synthetic trajectory generation, and warm-starting reinforcement learning. Meanwhile, these gains depend critically on behavioral coverage and environment complexity, delineating clear boundry on when world modeling effectively supports agent learning.