ChatPaper.aiChatPaper

Dalla Parola al Mondo: I Modelli Linguistici di Grande Dimensione Possono Essere Modelli Impliciti del Mondo Basati sul Testo?

From Word to World: Can Large Language Models be Implicit Text-based World Models?

December 21, 2025
Autori: Yixia Li, Hongru Wang, Jiahao Qiu, Zhenfei Yin, Dongdong Zhang, Cheng Qian, Zeping Li, Pony Ma, Guanhua Chen, Heng Ji, Mengdi Wang
cs.AI

Abstract

L'apprendimento per rinforzo agentico dipende sempre più da metodi di scalabilità basati sull'esperienza, mentre gli ambienti del mondo reale rimangono non adattivi, limitati nella copertura e difficili da scalare. I modelli del mondo offrono una potenziale soluzione per migliorare l'efficienza dell'apprendimento attraverso esperienze simulate, ma rimane poco chiaro se i grandi modelli linguistici possano svolgere in modo affidabile questo ruolo e sotto quali condizioni apportino benefici significativi agli agenti. Studiamo queste questioni in ambienti testuali, che forniscono un contesto controllato per reinterpretare la modellazione linguistica come previsione dello stato successivo durante l'interazione. Introduciamo un framework a tre livelli per valutare i modelli del mondo basati su LLM: (i) fedeltà e coerenza, (ii) scalabilità e robustezza, e (iii) utilità per l'agente. In cinque ambienti rappresentativi, riscontriamo che modelli del mondo sufficientemente addestrati mantengono uno stato latente coerente, scalano in modo prevedibile con dati e dimensioni del modello, e migliorano le prestazioni degli agenti attraverso verifica delle azioni, generazione di traiettorie sintetiche e inizializzazione preliminare dell'apprendimento per rinforzo. Tuttavia, questi vantaggi dipendono criticamente dalla copertura comportamentale e dalla complessità ambientale, delineando confini precisi su quando la modellazione del mondo supporta efficacemente l'apprendimento degli agenti.
English
Agentic reinforcement learning increasingly relies on experience-driven scaling, yet real-world environments remain non-adaptive, limited in coverage, and difficult to scale. World models offer a potential way to improve learning efficiency through simulated experience, but it remains unclear whether large language models can reliably serve this role and under what conditions they meaningfully benefit agents. We study these questions in text-based environments, which provide a controlled setting to reinterpret language modeling as next-state prediction under interaction. We introduce a three-level framework for evaluating LLM-based world models: (i) fidelity and consistency, (ii) scalability and robustness, and (iii) agent utility. Across five representative environments, we find that sufficiently trained world models maintain coherent latent state, scale predictably with data and model size, and improve agent performance via action verification, synthetic trajectory generation, and warm-starting reinforcement learning. Meanwhile, these gains depend critically on behavioral coverage and environment complexity, delineating clear boundry on when world modeling effectively supports agent learning.
PDF152February 8, 2026