Het overbruggen van de agent-wereldkloof: tekstwereldmodellen voor op LLM gebaseerde agenten

Samenvatting

Op grote taalmodellen (LLM's) gebaseerde agenten worden steeds vaker ingezet in interactieve tekstuele omgevingen, variërend van webnavigatie en codebewerking tot toolgebruik en dialogen over lange termijn. Toch blijven veel agenten grotendeels reactief: ze vertalen waarnemingen naar acties zonder een expliciet model van hoe deze omgevingen zijn gestructureerd en evolueren. Dit motiveert de ontwikkeling van tekstwereldmodellen (TWMs): overgangsmodellen over tekstuele toestanden die, gegeven een toestand en een kandidaatsactie, de resulterende webpagina, terminaluitvoer, API-respons of gebruikersreactie voorspellen. Hierdoor ondersteunen ze planning, efficiënt leren en principiële evaluatie. We geven een systematisch overzicht van tekstwereldmodellen voor op LLM's gebaseerde agenten, georganiseerd rond een formeel raamwerk en de levenscyclus van de agent: (1) Grondslagen, waarin we tekstwereldmodellen definiëren en karakteriseren op basis van toestandsrepresentatie en verankeringsdomein; (2) Constructie, waarin we een taxonomie geven van de paradigma's LLM-als-WM en code-als-WM en de methoden voor het bouwen ervan bespreken; (3) Toepassing, waarin we onderzoeken hoe wereldmodellen agenten ondersteunen tijdens de trainingsfase door synthese van ervaringen en tijdens de inferentiefase door planning, verificatie en aanpassing; en (4) Evaluatie, die zowel de evaluatie van het wereldmodel zelf omvat als het gebruik ervan als evaluatieomgeving voor agenten. We beogen dit snel ontwikkelende vakgebied te consolideren, de ontwerpruimte te verduidelijken en open uitdagingen voor toekomstig onderzoek te belichten.

English

Large language model (LLM)-based agents are increasingly used in interactive textual environments, from web navigation and code editing to tool use and long-horizon dialogue. Yet many remain largely reactive, mapping observations to actions without an explicit model of how these environments are structured and evolve. This motivates text world models (TWMs): transition models over textual states that, given a state and a candidate action, predict the resulting webpage, terminal output, API response, or user reply, thereby supporting planning, efficient learning, and principled evaluation. We systematically review text world models for LLM-based agents, organized around a formal framework and the agent lifecycle: (1) Foundations, defining text world models and characterizing them by state representation and grounding domain; (2) Construction, taxonomizing LLM-as-WM and code-as-WM paradigms and reviewing methods for building them; (3) Application, examining how world models support agents at training time through experience synthesis and at inference time through planning, verification, and adaptation; and (4) Evaluation, covering both evaluation of the world model itself and its use as an evaluation environment for agents. We aim to consolidate this rapidly developing area, clarify its design space, and highlight open challenges for future research.