Apprendimento di Modelli del Mondo con Rinforzo per Agenti Basati su LLM
Reinforcement World Model Learning for LLM-based Agents
February 5, 2026
Autori: Xiao Yu, Baolin Peng, Ruize Xu, Yelong Shen, Pengcheng He, Suman Nath, Nikhil Singh, Jiangfeng Gao, Zhou Yu
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno ottenuto prestazioni elevate in compiti incentrati sul linguaggio. Tuttavia, in contesti agentivi, gli LLM spesso faticano a prevedere le conseguenze delle azioni e ad adattarsi alle dinamiche ambientali, evidenziando la necessità di capacità di modellazione del mondo per gli agenti basati su LLM. Proponiamo il Reinforcement World Model Learning (RWML), un metodo auto-supervisionato che apprende modelli del mondo condizionati all'azione per agenti basati su LLM su stati testuali, utilizzando ricompense basate sul divario sim-to-real. Il nostro metodo allinea gli stati successivi simulati prodotti dal modello con gli stati successivi realizzati osservati dall'ambiente, incoraggiando la coerenza tra le simulazioni interne del mondo e le dinamiche ambientali reali in uno spazio di embedding pre-addestrato. A differenza della previsione del token dello stato successivo, che privilegia la fedeltà a livello di token (cioè riprodurre la formulazione esatta) rispetto all'equivalenza semantica e può portare al collasso del modello, il nostro metodo fornisce un segnale di addestramento più robusto ed è empiricamente meno suscettibile al reward hacking rispetto all'approccio LLM-as-a-judge. Valutiamo il nostro metodo su ALFWorld e τ^2 Bench e osserviamo miglioramenti significativi rispetto al modello base, nonostante sia interamente auto-supervisionato. Se combinato con ricompense per il successo del compito, il nostro metodo supera la RL con ricompensa diretta per il successo del compito di 6,9 e 5,7 punti rispettivamente su ALFWorld e τ^2 Bench, eguagliando le prestazioni dell'addestramento con dati esperti.
English
Large language models (LLMs) have achieved strong performance in language-centric tasks. However, in agentic settings, LLMs often struggle to anticipate action consequences and adapt to environment dynamics, highlighting the need for world-modeling capabilities in LLM-based agents. We propose Reinforcement World Model Learning (RWML), a self-supervised method that learns action-conditioned world models for LLM-based agents on textual states using sim-to-real gap rewards. Our method aligns simulated next states produced by the model with realized next states observed from the environment, encouraging consistency between internal world simulations and actual environment dynamics in a pre-trained embedding space. Unlike next-state token prediction, which prioritizes token-level fidelity (i.e., reproducing exact wording) over semantic equivalence and can lead to model collapse, our method provides a more robust training signal and is empirically less susceptible to reward hacking than LLM-as-a-judge. We evaluate our method on ALFWorld and τ^2 Bench and observe significant gains over the base model, despite being entirely self-supervised. When combined with task-success rewards, our method outperforms direct task-success reward RL by 6.9 and 5.7 points on ALFWorld and τ^2 Bench respectively, while matching the performance of expert-data training.