Del Palabra al Mundo: ¿Pueden los Modelos de Lenguaje Grandes ser Modelos Mundiales Implícitos Basados en Texto?
From Word to World: Can Large Language Models be Implicit Text-based World Models?
December 21, 2025
Autores: Yixia Li, Hongru Wang, Jiahao Qiu, Zhenfei Yin, Dongdong Zhang, Cheng Qian, Zeping Li, Pony Ma, Guanhua Chen, Heng Ji, Mengdi Wang
cs.AI
Resumen
El aprendizaje por refuerzo agéntico depende cada vez más del escalado basado en experiencia; sin embargo, los entornos del mundo real siguen siendo no adaptativos, de cobertura limitada y difíciles de escalar. Los modelos del mundo ofrecen una forma potencial de mejorar la eficiencia del aprendizaje mediante experiencia simulada, pero aún no está claro si los modelos de lenguaje grandes pueden desempeñar este rol de manera confiable y bajo qué condiciones benefician significativamente a los agentes. Estudiamos estas cuestiones en entornos basados en texto, que proporcionan un entorno controlado para reinterpretar el modelado del lenguaje como predicción del siguiente estado bajo interacción. Introducimos un marco de tres niveles para evaluar modelos del mundo basados en LLM: (i) fidelidad y consistencia, (ii) escalabilidad y robustez, y (iii) utilidad para el agente. En cinco entornos representativos, encontramos que los modelos del mundo suficientemente entrenados mantienen un estado latente coherente, escalan de manera predecible con los datos y el tamaño del modelo, y mejoran el rendimiento del agente mediante verificación de acciones, generación de trayectorias sintéticas y inicialización previa del aprendizaje por refuerzo. Mientras tanto, estas ganancias dependen críticamente de la cobertura conductual y la complejidad del entorno, delineando un límite claro sobre cuándo el modelado del mundo respalda efectivamente el aprendizaje de los agentes.
English
Agentic reinforcement learning increasingly relies on experience-driven scaling, yet real-world environments remain non-adaptive, limited in coverage, and difficult to scale. World models offer a potential way to improve learning efficiency through simulated experience, but it remains unclear whether large language models can reliably serve this role and under what conditions they meaningfully benefit agents. We study these questions in text-based environments, which provide a controlled setting to reinterpret language modeling as next-state prediction under interaction. We introduce a three-level framework for evaluating LLM-based world models: (i) fidelity and consistency, (ii) scalability and robustness, and (iii) agent utility. Across five representative environments, we find that sufficiently trained world models maintain coherent latent state, scale predictably with data and model size, and improve agent performance via action verification, synthetic trajectory generation, and warm-starting reinforcement learning. Meanwhile, these gains depend critically on behavioral coverage and environment complexity, delineating clear boundry on when world modeling effectively supports agent learning.