Superando la brecha agente-mundo: Modelos de mundo textuales para agentes basados en LLM

Resumen

Los agentes basados en modelos de lenguaje grande (LLM) se utilizan cada vez más en entornos textuales interactivos, desde la navegación web y la edición de código hasta el uso de herramientas y el diálogo de largo horizonte. Sin embargo, muchos siguen siendo en gran medida reactivos, mapeando observaciones a acciones sin un modelo explícito de cómo estos entornos están estructurados y evolucionan. Esto motiva los modelos de mundo textual (TWM): modelos de transición sobre estados textuales que, dado un estado y una acción candidata, predicen la página web resultante, la salida del terminal, la respuesta de la API o la réplica del usuario, apoyando así la planificación, el aprendizaje eficiente y la evaluación fundamentada. Revisamos sistemáticamente los modelos de mundo textual para agentes basados en LLM, organizados en torno a un marco formal y el ciclo de vida del agente: (1) Fundamentos, definiendo modelos de mundo textual y caracterizándolos por representación de estado y dominio de anclaje; (2) Construcción, taxonomizando los paradigmas de LLM como WM y código como WM y revisando métodos para construirlos; (3) Aplicación, examinando cómo los modelos de mundo apoyan a los agentes en tiempo de entrenamiento a través de síntesis de experiencia y en tiempo de inferencia mediante planificación, verificación y adaptación; y (4) Evaluación, cubriendo tanto la evaluación del propio modelo de mundo como su uso como entorno de evaluación para agentes. Nuestro objetivo es consolidar esta área en rápido desarrollo, clarificar su espacio de diseño y destacar desafíos abiertos para la investigación futura.

English

Large language model (LLM)-based agents are increasingly used in interactive textual environments, from web navigation and code editing to tool use and long-horizon dialogue. Yet many remain largely reactive, mapping observations to actions without an explicit model of how these environments are structured and evolve. This motivates text world models (TWMs): transition models over textual states that, given a state and a candidate action, predict the resulting webpage, terminal output, API response, or user reply, thereby supporting planning, efficient learning, and principled evaluation. We systematically review text world models for LLM-based agents, organized around a formal framework and the agent lifecycle: (1) Foundations, defining text world models and characterizing them by state representation and grounding domain; (2) Construction, taxonomizing LLM-as-WM and code-as-WM paradigms and reviewing methods for building them; (3) Application, examining how world models support agents at training time through experience synthesis and at inference time through planning, verification, and adaptation; and (4) Evaluation, covering both evaluation of the world model itself and its use as an evaluation environment for agents. We aim to consolidate this rapidly developing area, clarify its design space, and highlight open challenges for future research.