Van woord naar wereld: Kunnen grote taalmodellen impliciete tekstgebaseerde wereldmodellen zijn?
From Word to World: Can Large Language Models be Implicit Text-based World Models?
December 21, 2025
Auteurs: Yixia Li, Hongru Wang, Jiahao Qiu, Zhenfei Yin, Dongdong Zhang, Cheng Qian, Zeping Li, Pony Ma, Guanhua Chen, Heng Ji, Mengdi Wang
cs.AI
Samenvatting
Agentische reinforcement learning maakt in toenemende mate gebruik van ervaringsgedreven schaalvergroting, maar real-world omgevingen blijven niet-adaptief, beperkt in dekking en moeilijk op te schalen. Wereldmodellen bieden een potentiële manier om de leer efficiëntie te verbeteren door middel van gesimuleerde ervaring, maar het is onduidelijk of grote taalmodellen deze rol betrouwbaar kunnen vervullen en onder welke voorwaarden zij agenten zinvol ondersteunen. Wij bestuderen deze vragen in op tekst gebaseerde omgevingen, die een gecontroleerde setting bieden om taalmodellering te herinterpreteren als volgende-toestand-voorspelling onder interactie. Wij introduceren een drieniveau-raamwerk voor de evaluatie van op LLM gebaseerde wereldmodellen: (i) nauwkeurigheid en consistentie, (ii) schaalbaarheid en robuustheid, en (iii) agentnut. In vijf representatieve omgevingen constateren wij dat voldoende getrainde wereldmodellen coherente latente toestand behouden, voorspelbaar schalen met data en modelgrootte, en agentprestaties verbeteren via actieverificatie, generatie van synthetische trajecten en warm starten van reinforcement learning. Tegelijkertijd zijn deze winsten kritisch afhankelijk van gedragsdekking en omgevingscomplexiteit, wat een duidelijke grens afbakent voor wanneer wereldmodellering agentleren effectief ondersteunt.
English
Agentic reinforcement learning increasingly relies on experience-driven scaling, yet real-world environments remain non-adaptive, limited in coverage, and difficult to scale. World models offer a potential way to improve learning efficiency through simulated experience, but it remains unclear whether large language models can reliably serve this role and under what conditions they meaningfully benefit agents. We study these questions in text-based environments, which provide a controlled setting to reinterpret language modeling as next-state prediction under interaction. We introduce a three-level framework for evaluating LLM-based world models: (i) fidelity and consistency, (ii) scalability and robustness, and (iii) agent utility. Across five representative environments, we find that sufficiently trained world models maintain coherent latent state, scale predictably with data and model size, and improve agent performance via action verification, synthetic trajectory generation, and warm-starting reinforcement learning. Meanwhile, these gains depend critically on behavioral coverage and environment complexity, delineating clear boundry on when world modeling effectively supports agent learning.