Agentische Weltmodellierung: Grundlagen, Fähigkeiten, Gesetze und darüber hinaus

Zusammenfassung

Während sich KI-Systeme von der reinen Texterzeugung hin zur Erreichung von Zielen durch nachhaltige Interaktion entwickeln, wird die Fähigkeit, Umgebungsdynamiken zu modellieren, zu einem zentralen Engpass. Agenten, die Objekte manipulieren, Software steuern, mit anderen koordinieren oder Experimente entwerfen, benötigen prädiktive Umgebungsmodelle. Dennoch hat der Begriff Weltmodell in verschiedenen Forschungsgemeinschaften unterschiedliche Bedeutungen. Wir stellen eine „Level-x-Gesetze“-Taxonomie vor, die entlang zweier Achsen organisiert ist. Die erste Achse definiert drei Fähigkeitslevel: L1-Prädiktor, der lokale Einzelschritt-Übergangsoperatoren lernt; L2-Simulator, der diese zu mehrschrittigen, aktionsbedingten Rollouts zusammensetzt, die Domänengesetze einhalten; und L3-Evolver, der sein eigenes Modell autonom revidiert, wenn Vorhersagen an neuen Evidenzen scheitern. Die zweite Achse identifiziert vier Regime von Governing Laws: physisch, digital, sozial und wissenschaftlich. Diese Regime bestimmen, welchen Beschränkungen ein Weltmodell genügen muss und wo es am ehesten versagen wird. Mithilfe dieses Rahmens synthetisieren wir über 400 Arbeiten und fassen mehr als 100 repräsentative Systeme zusammen, die modellbasiertes Reinforcement Learning, Videogenerierung, Web- und GUI-Agenten, multi-agentenbasierte Sozialsimulation und KI-gesteuerte wissenschaftliche Entdeckung umfassen. Wir analysieren Methoden, Fehlermodi und Evaluierungspraktiken über Level-Regime-Paare hinweg, schlagen entscheidungszentrierte Evaluierungsprinzipien und ein minimales reproduzierbares Evaluierungspaket vor und skizzieren Architekturleitlinien, offene Probleme und Governance-Herausforderungen. Die resultierende Roadmap verbindet zuvor isolierte Gemeinschaften und weist einen Weg von der passiven „Next-Step“-Prädiktion hin zu Weltmodellen, die die Umgebungen, in denen Agenten operieren, simulieren und letztlich gestalten können.

English

As AI systems move from generating text to accomplishing goals through sustained interaction, the ability to model environment dynamics becomes a central bottleneck. Agents that manipulate objects, navigate software, coordinate with others, or design experiments require predictive environment models, yet the term world model carries different meanings across research communities. We introduce a "levels x laws" taxonomy organized along two axes. The first defines three capability levels: L1 Predictor, which learns one-step local transition operators; L2 Simulator, which composes them into multi-step, action-conditioned rollouts that respect domain laws; and L3 Evolver, which autonomously revises its own model when predictions fail against new evidence. The second identifies four governing-law regimes: physical, digital, social, and scientific. These regimes determine what constraints a world model must satisfy and where it is most likely to fail. Using this framework, we synthesize over 400 works and summarize more than 100 representative systems spanning model-based reinforcement learning, video generation, web and GUI agents, multi-agent social simulation, and AI-driven scientific discovery. We analyze methods, failure modes, and evaluation practices across level-regime pairs, propose decision-centric evaluation principles and a minimal reproducible evaluation package, and outline architectural guidance, open problems, and governance challenges. The resulting roadmap connects previously isolated communities and charts a path from passive next-step prediction toward world models that can simulate, and ultimately reshape, the environments in which agents operate.

Agentische Weltmodellierung: Grundlagen, Fähigkeiten, Gesetze und darüber hinaus

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Zusammenfassung

Support