Superando a Lacuna Agente-Mundo: Modelos de Mundo Textuais para Agentes baseados em LLM

Resumo

Agentes baseados em grandes modelos de linguagem (LLMs) são cada vez mais utilizados em ambientes textuais interativos, desde navegação na web e edição de código até uso de ferramentas e diálogos de longo horizonte. No entanto, muitos permanecem em grande parte reativos, mapeando observações para ações sem um modelo explícito de como esses ambientes são estruturados e evoluem. Isso motiva os modelos de mundo textual (TWMs): modelos de transição sobre estados textuais que, dado um estado e uma ação candidata, preveem a página web resultante, a saída de terminal, a resposta de API ou a réplica do usuário, apoiando assim o planejamento, o aprendizado eficiente e a avaliação fundamentada. Revisamos sistematicamente modelos de mundo textual para agentes baseados em LLM, organizados em torno de um arcabouço formal e do ciclo de vida do agente: (1) Fundamentos, definindo modelos de mundo textual e caracterizando-os por representação de estado e domínio de fundamentação; (2) Construção, taxonomizando os paradigmas LLM-como-WM e código-como-WM e revisando métodos para construí-los; (3) Aplicação, examinando como modelos de mundo apoiam agentes durante o treinamento por meio de síntese de experiência e durante a inferência por meio de planejamento, verificação e adaptação; e (4) Avaliação, abrangendo tanto a avaliação do próprio modelo de mundo quanto seu uso como ambiente de avaliação para agentes. Nosso objetivo é consolidar essa área em rápido desenvolvimento, esclarecer seu espaço de design e destacar desafios em aberto para pesquisas futuras.

English

Large language model (LLM)-based agents are increasingly used in interactive textual environments, from web navigation and code editing to tool use and long-horizon dialogue. Yet many remain largely reactive, mapping observations to actions without an explicit model of how these environments are structured and evolve. This motivates text world models (TWMs): transition models over textual states that, given a state and a candidate action, predict the resulting webpage, terminal output, API response, or user reply, thereby supporting planning, efficient learning, and principled evaluation. We systematically review text world models for LLM-based agents, organized around a formal framework and the agent lifecycle: (1) Foundations, defining text world models and characterizing them by state representation and grounding domain; (2) Construction, taxonomizing LLM-as-WM and code-as-WM paradigms and reviewing methods for building them; (3) Application, examining how world models support agents at training time through experience synthesis and at inference time through planning, verification, and adaptation; and (4) Evaluation, covering both evaluation of the world model itself and its use as an evaluation environment for agents. We aim to consolidate this rapidly developing area, clarify its design space, and highlight open challenges for future research.