Combler le fossé agent-monde : Modèles de monde textuels pour agents basés sur les LLM

Résumé

Les agents basés sur de grands modèles de langage (LLM) sont de plus en plus utilisés dans des environnements textuels interactifs, allant de la navigation web et de l'édition de code à l'utilisation d'outils et au dialogue à long terme. Pourtant, beaucoup restent largement réactifs, associant des observations à des actions sans modèle explicite de la manière dont ces environnements sont structurés et évoluent. Cela justifie le développement des modèles de monde textuel (TWMs) : des modèles de transition sur des états textuels qui, étant donné un état et une action candidate, prédisent la page web, la sortie terminale, la réponse API ou le retour utilisateur résultants, soutenant ainsi la planification, l'apprentissage efficace et l'évaluation rigoureuse. Nous examinons systématiquement les modèles de monde textuel pour les agents basés sur LLM, organisés autour d'un cadre formel et du cycle de vie des agents : (1) Fondements, définissant les modèles de monde textuel et les caractérisant par représentation d'état et domaine d'ancrage ; (2) Construction, taxinomisant les paradigmes LLM-en-tant-que-Monde et code-en-tant-que-Monde et passant en revue les méthodes pour les construire ; (3) Application, examinant comment les modèles de monde soutiennent les agents en phase d'entraînement par synthèse d'expérience et en phase d'inférence par planification, vérification et adaptation ; et (4) Évaluation, couvrant à la fois l'évaluation du modèle de monde lui-même et son utilisation comme environnement d'évaluation pour les agents. Nous visons à consolider ce domaine en plein essor, à clarifier son espace de conception et à souligner les défis ouverts pour les recherches futures.

English

Large language model (LLM)-based agents are increasingly used in interactive textual environments, from web navigation and code editing to tool use and long-horizon dialogue. Yet many remain largely reactive, mapping observations to actions without an explicit model of how these environments are structured and evolve. This motivates text world models (TWMs): transition models over textual states that, given a state and a candidate action, predict the resulting webpage, terminal output, API response, or user reply, thereby supporting planning, efficient learning, and principled evaluation. We systematically review text world models for LLM-based agents, organized around a formal framework and the agent lifecycle: (1) Foundations, defining text world models and characterizing them by state representation and grounding domain; (2) Construction, taxonomizing LLM-as-WM and code-as-WM paradigms and reviewing methods for building them; (3) Application, examining how world models support agents at training time through experience synthesis and at inference time through planning, verification, and adaptation; and (4) Evaluation, covering both evaluation of the world model itself and its use as an evaluation environment for agents. We aim to consolidate this rapidly developing area, clarify its design space, and highlight open challenges for future research.