Agentische Wereldmodellering: Fundamenten, Mogelijkheden, Wetten en Verder

Samenvatting

Naarmate AI-systemen evolueren van het genereren van tekst naar het bereiken van doelstellingen via aanhoudende interactie, wordt het vermogen om omgevingsdynamiek te modelleren een centrale bottleneck. Agenten die objecten manipuleren, software navigeren, met anderen coördineren of experimenten ontwerpen, vereisen voorspellende omgevingsmodellen. Toch heeft de term 'wereldmodel' verschillende betekenissen binnen onderzoeksgemeenschappen. Wij introduceren een "niveaus x wetten"-taxonomie, georganiseerd langs twee assen. De eerste as definieert drie capaciteitsniveaus: de L1-voorspeller, die één-staps lokale transitie-operatoren leert; de L2-simulator, die deze samenstelt tot meerstaps, actie-geconditioneerde rollouts die domeinwetten respecteren; en de L3-ontwikkelaar, die autonoom zijn eigen model reviseert wanneer voorspellingen falen tegenover nieuw bewijs. De tweede as identificeert vier regimes van wetmatigheden: fysiek, digitaal, sociaal en wetenschappelijk. Deze regimes bepalen welke beperkingen een wereldmodel moet voldoen en waar het waarschijnlijk zal falen. Met dit raamwerk synthetiseren wij meer dan 400 werken en vatten wij meer dan 100 representatieve systemen samen, die zich uitstrekken over modelgebaseerde reinforcement learning, videogeneratie, web- en GUI-agenten, multi-agent sociale simulatie en AI-gedreven wetenschappelijke ontdekking. Wij analyseren methoden, faalmodi en evaluatiepraktijken across niveau-regime paren, stellen beslissingsgerichte evaluatieprincipes en een minimaal reproduceerbaar evaluatiepakket voor, en schetsen architectuurrichtlijnen, open problemen en governance-uitdagingen. De resulterende routekaart verbindt voorheen geïsoleerde gemeenschappen en wijst een pad aan van passieve volgende-stap voorspelling naar wereldmodellen die de omgevingen waarin agenten opereren kunnen simuleren, en uiteindelijk hervormen.

English

As AI systems move from generating text to accomplishing goals through sustained interaction, the ability to model environment dynamics becomes a central bottleneck. Agents that manipulate objects, navigate software, coordinate with others, or design experiments require predictive environment models, yet the term world model carries different meanings across research communities. We introduce a "levels x laws" taxonomy organized along two axes. The first defines three capability levels: L1 Predictor, which learns one-step local transition operators; L2 Simulator, which composes them into multi-step, action-conditioned rollouts that respect domain laws; and L3 Evolver, which autonomously revises its own model when predictions fail against new evidence. The second identifies four governing-law regimes: physical, digital, social, and scientific. These regimes determine what constraints a world model must satisfy and where it is most likely to fail. Using this framework, we synthesize over 400 works and summarize more than 100 representative systems spanning model-based reinforcement learning, video generation, web and GUI agents, multi-agent social simulation, and AI-driven scientific discovery. We analyze methods, failure modes, and evaluation practices across level-regime pairs, propose decision-centric evaluation principles and a minimal reproducible evaluation package, and outline architectural guidance, open problems, and governance challenges. The resulting roadmap connects previously isolated communities and charts a path from passive next-step prediction toward world models that can simulate, and ultimately reshape, the environments in which agents operate.

Agentische Wereldmodellering: Fundamenten, Mogelijkheden, Wetten en Verder

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Samenvatting

Support