Het simuleren van de visuele wereld met kunstmatige intelligentie: een routekaart
Simulating the Visual World with Artificial Intelligence: A Roadmap
November 11, 2025
Auteurs: Jingtong Yue, Ziqi Huang, Zhaoxi Chen, Xintao Wang, Pengfei Wan, Ziwei Liu
cs.AI
Samenvatting
Het landschap van videogeneratie is aan het verschuiven: van een focus op het genereren van visueel aantrekkelijke clips naar het bouwen van virtuele omgevingen die interactie ondersteunen en fysieke plausibiliteit behouden. Deze ontwikkelingen wijzen op de opkomst van videofoundationmodellen die niet alleen functioneren als visuele generators, maar ook als impliciete wereldmodellen: modellen die de fysieke dynamiek, interacties tussen agenten en omgeving, en taakplanning simuleren die echte of verbeelde werelden beheersen. Dit overzichtsartikel biedt een systematisch beeld van deze evolutie en conceptualiseert moderne videofoundationmodellen als de combinatie van twee kerncomponenten: een impliciet wereldmodel en een videorenderer. Het wereldmodel codeert gestructureerde kennis over de wereld, inclusief fysieke wetten, interactiedynamiek en gedrag van agenten. Het fungeert als een latente simulatie-engine die coherent visueel redeneren, consistente temporaliteit op lange termijn en doelgedreven planning mogelijk maakt. De videorenderer transformeert deze latente simulatie naar realistische visuele observaties, en produceert effectief video's als een "venster" in de gesimuleerde wereld. Wij volgen de voortgang van videogeneratie door vier generaties heen, waarbij de kerncapaciteiten stap voor stap vorderen en uiteindelijk culmineren in een wereldmodel, gebouwd op een videogeneratiemodel, dat intrinsieke fysieke plausibiliteit, real-time multimodale interactie en planningscapaciteiten over meerdere ruimtelijk-temporele schalen belichaamt. Voor elke generatie definiëren wij de kernkenmerken, belichten representatieve werken en onderzoeken hun toepassingsdomeinen, zoals robotica, autonoom rijden en interactief gamen. Ten slotte bespreken wij open uitdagingen en ontwerpprincipes voor wereldmodellen van de volgende generatie, inclusief de rol van agentintelligentie bij het vormgeven en evalueren van deze systemen. Een actuele lijst van gerelateerde werken wordt bijgehouden via deze link.
English
The landscape of video generation is shifting, from a focus on generating visually appealing clips to building virtual environments that support interaction and maintain physical plausibility. These developments point toward the emergence of video foundation models that function not only as visual generators but also as implicit world models, models that simulate the physical dynamics, agent-environment interactions, and task planning that govern real or imagined worlds. This survey provides a systematic overview of this evolution, conceptualizing modern video foundation models as the combination of two core components: an implicit world model and a video renderer. The world model encodes structured knowledge about the world, including physical laws, interaction dynamics, and agent behavior. It serves as a latent simulation engine that enables coherent visual reasoning, long-term temporal consistency, and goal-driven planning. The video renderer transforms this latent simulation into realistic visual observations, effectively producing videos as a "window" into the simulated world. We trace the progression of video generation through four generations, in which the core capabilities advance step by step, ultimately culminating in a world model, built upon a video generation model, that embodies intrinsic physical plausibility, real-time multimodal interaction, and planning capabilities spanning multiple spatiotemporal scales. For each generation, we define its core characteristics, highlight representative works, and examine their application domains such as robotics, autonomous driving, and interactive gaming. Finally, we discuss open challenges and design principles for next-generation world models, including the role of agent intelligence in shaping and evaluating these systems. An up-to-date list of related works is maintained at this link.