Simulation der visuellen Welt mit Künstlicher Intelligenz: Ein Fahrplan
Simulating the Visual World with Artificial Intelligence: A Roadmap
November 11, 2025
papers.authors: Jingtong Yue, Ziqi Huang, Zhaoxi Chen, Xintao Wang, Pengfei Wan, Ziwei Liu
cs.AI
papers.abstract
Die Landschaft der Videogenerierung befindet sich im Wandel: weg von der Erstellung visuell ansprechender Clips hin zum Aufbau virtueller Umgebungen, die Interaktion unterstützen und physikalische Plausibilität wahren. Diese Entwicklungen deuten auf das Entstehen von Video-Foundation-Modellen hin, die nicht nur als visuelle Generatoren fungieren, sondern auch als implizite Weltmodelle – Modelle, die die physikalische Dynamik, Agenten-Umgebungs-Interaktionen und Aufgabenplanung simulieren, die reale oder imaginierte Welten bestimmen. Dieser Übersichtsartikel bietet einen systematischen Überblick über diese Entwicklung und konzeptualisiert moderne Video-Foundation-Modelle als Kombination zweier Kernkomponenten: eines impliziten Weltmodells und eines Video-Renderers. Das Weltmodell kodiert strukturiertes Wissen über die Welt, einschließlich physikalischer Gesetze, Interaktionsdynamiken und Agentenverhalten. Es dient als latente Simulationsengine, die kohärentes visuelles Reasoning, langfristige zeitliche Konsistenz und zielgerichtete Planung ermöglicht. Der Video-Renderer transformiert diese latente Simulation in realistische visuelle Beobachtungen und erzeugt effektiv Videos als "Fenster" in die simulierte Welt. Wir verfolgen den Fortschritt der Videogenerierung durch vier Generationen, in denen die Kernfähigkeiten schrittweise voranschreiten und letztlich in einem Weltmodell gipfeln, das auf einem Videogenerierungsmodell aufbaut und intrinsische physikalische Plausibilität, Echtzeit-Multimodal-Interaktion sowie Planungsfähigkeiten über mehrere raumzeitliche Skalen hinweg verkörpert. Für jede Generation definieren wir ihre Kernmerkmale, heben repräsentative Arbeiten hervor und untersuchen ihre Anwendungsbereiche wie Robotik, autonomes Fahren und interaktives Gaming. Abschließend diskutieren wir offene Herausforderungen und Designprinzipien für Weltmodelle der nächsten Generation, einschließlich der Rolle von Agentenintelligenz bei der Gestaltung und Evaluierung dieser Systeme. Eine aktuelle Liste verwandter Arbeiten wird unter diesem Link gepflegt.
English
The landscape of video generation is shifting, from a focus on generating visually appealing clips to building virtual environments that support interaction and maintain physical plausibility. These developments point toward the emergence of video foundation models that function not only as visual generators but also as implicit world models, models that simulate the physical dynamics, agent-environment interactions, and task planning that govern real or imagined worlds. This survey provides a systematic overview of this evolution, conceptualizing modern video foundation models as the combination of two core components: an implicit world model and a video renderer. The world model encodes structured knowledge about the world, including physical laws, interaction dynamics, and agent behavior. It serves as a latent simulation engine that enables coherent visual reasoning, long-term temporal consistency, and goal-driven planning. The video renderer transforms this latent simulation into realistic visual observations, effectively producing videos as a "window" into the simulated world. We trace the progression of video generation through four generations, in which the core capabilities advance step by step, ultimately culminating in a world model, built upon a video generation model, that embodies intrinsic physical plausibility, real-time multimodal interaction, and planning capabilities spanning multiple spatiotemporal scales. For each generation, we define its core characteristics, highlight representative works, and examine their application domains such as robotics, autonomous driving, and interactive gaming. Finally, we discuss open challenges and design principles for next-generation world models, including the role of agent intelligence in shaping and evaluating these systems. An up-to-date list of related works is maintained at this link.