ChatPaper.aiChatPaper

Aprendizaje de Modelos de Mundo por Refuerzo para Agentes Basados en LLM

Reinforcement World Model Learning for LLM-based Agents

February 5, 2026
Autores: Xiao Yu, Baolin Peng, Ruize Xu, Yelong Shen, Pengcheng He, Suman Nath, Nikhil Singh, Jiangfeng Gao, Zhou Yu
cs.AI

Resumen

Los grandes modelos de lenguaje (LLMs) han logrado un alto rendimiento en tareas centradas en el lenguaje. Sin embargo, en entornos agentivos, los LLMs a menudo tienen dificultades para anticipar las consecuencias de las acciones y adaptarse a la dinámica del entorno, lo que subraya la necesidad de capacidades de modelado del mundo en agentes basados en LLM. Proponemos el Aprendizaje de Modelos del Mundo por Refuerzo (RWML), un método autosupervisado que aprende modelos del mundo condicionados por acciones para agentes basados en LLM sobre estados textuales utilizando recompensas de brecha sim-to-real. Nuestro método alinea los siguientes estados simulados producidos por el modelo con los siguientes estados reales observados desde el entorno, fomentando la coherencia entre las simulaciones internas del mundo y la dinámica real del entorno en un espacio de *embeddings* preentrenado. A diferencia de la predicción de tokens del siguiente estado, que prioriza la fidelidad a nivel de token (es decir, reproducir la redacción exacta) sobre la equivalencia semántica y puede conducir al colapso del modelo, nuestro método proporciona una señal de entrenamiento más robusta y es empíricamente menos susceptible a la manipulación de recompensas que el enfoque LLM-como-juez. Evaluamos nuestro método en ALFWorld y τ² Bench y observamos mejoras significativas respecto al modelo base, a pesar de ser completamente autosupervisado. Cuando se combina con recompensas por éxito en la tarea, nuestro método supera al Aprendizaje por Refuerzo con recompensa directa por éxito en la tarea en 6.9 y 5.7 puntos en ALFWorld y τ² Bench respectivamente, igualando además el rendimiento del entrenamiento con datos de expertos.
English
Large language models (LLMs) have achieved strong performance in language-centric tasks. However, in agentic settings, LLMs often struggle to anticipate action consequences and adapt to environment dynamics, highlighting the need for world-modeling capabilities in LLM-based agents. We propose Reinforcement World Model Learning (RWML), a self-supervised method that learns action-conditioned world models for LLM-based agents on textual states using sim-to-real gap rewards. Our method aligns simulated next states produced by the model with realized next states observed from the environment, encouraging consistency between internal world simulations and actual environment dynamics in a pre-trained embedding space. Unlike next-state token prediction, which prioritizes token-level fidelity (i.e., reproducing exact wording) over semantic equivalence and can lead to model collapse, our method provides a more robust training signal and is empirically less susceptible to reward hacking than LLM-as-a-judge. We evaluate our method on ALFWorld and τ^2 Bench and observe significant gains over the base model, despite being entirely self-supervised. When combined with task-success rewards, our method outperforms direct task-success reward RL by 6.9 and 5.7 points on ALFWorld and τ^2 Bench respectively, while matching the performance of expert-data training.
PDF112February 7, 2026