ChatPaper.aiChatPaper

Simulando el Mundo Visual con Inteligencia Artificial: Una Hoja de Ruta

Simulating the Visual World with Artificial Intelligence: A Roadmap

November 11, 2025
Autores: Jingtong Yue, Ziqi Huang, Zhaoxi Chen, Xintao Wang, Pengfei Wan, Ziwei Liu
cs.AI

Resumen

El panorama de la generación de vídeo está experimentando una transformación, pasando de un enfoque en la creación de clips visualmente atractivos a la construcción de entornos virtuales que admiten la interacción y mantienen la plausibilidad física. Estos avances apuntan hacia la emergencia de modelos fundacionales de vídeo que funcionan no solo como generadores visuales, sino también como modelos de mundo implícitos; es decir, modelos que simulan la dinámica física, las interacciones agente-entorno y la planificación de tareas que gobiernan mundos reales o imaginados. Esta revisión ofrece una visión sistemática de esta evolución, conceptualizando los modelos fundacionales de vídeo modernos como la combinación de dos componentes centrales: un modelo de mundo implícito y un renderizador de vídeo. El modelo de mundo codifica conocimiento estructurado sobre el mundo, incluyendo leyes físicas, dinámicas de interacción y comportamiento de los agentes. Sirve como un motor de simulación latente que permite un razonamiento visual coherente, una consistencia temporal a largo plazo y una planificación orientada a objetivos. El renderizador de vídeo transforma esta simulación latente en observaciones visuales realistas, produciendo efectivamente vídeos como una "ventana" al mundo simulado. Rastreamos la progresión de la generación de vídeo a través de cuatro generaciones, en las que las capacidades centrales avanzan paso a paso, culminando finalmente en un modelo de mundo, construido sobre un modelo de generación de vídeo, que incorpora una plausibilidad física intrínseca, una interacción multimodal en tiempo real y capacidades de planificación que abarcan múltiples escalas espacio-temporales. Para cada generación, definimos sus características principales, destacamos trabajos representativos y examinamos sus dominios de aplicación, como la robótica, la conducción autónoma y los videojuegos interactivos. Finalmente, discutimos los desafíos abiertos y los principios de diseño para los modelos de mundo de próxima generación, incluyendo el papel de la inteligencia de los agentes en la configuración y evaluación de estos sistemas. Una lista actualizada de trabajos relacionados se mantiene en este enlace.
English
The landscape of video generation is shifting, from a focus on generating visually appealing clips to building virtual environments that support interaction and maintain physical plausibility. These developments point toward the emergence of video foundation models that function not only as visual generators but also as implicit world models, models that simulate the physical dynamics, agent-environment interactions, and task planning that govern real or imagined worlds. This survey provides a systematic overview of this evolution, conceptualizing modern video foundation models as the combination of two core components: an implicit world model and a video renderer. The world model encodes structured knowledge about the world, including physical laws, interaction dynamics, and agent behavior. It serves as a latent simulation engine that enables coherent visual reasoning, long-term temporal consistency, and goal-driven planning. The video renderer transforms this latent simulation into realistic visual observations, effectively producing videos as a "window" into the simulated world. We trace the progression of video generation through four generations, in which the core capabilities advance step by step, ultimately culminating in a world model, built upon a video generation model, that embodies intrinsic physical plausibility, real-time multimodal interaction, and planning capabilities spanning multiple spatiotemporal scales. For each generation, we define its core characteristics, highlight representative works, and examine their application domains such as robotics, autonomous driving, and interactive gaming. Finally, we discuss open challenges and design principles for next-generation world models, including the role of agent intelligence in shaping and evaluating these systems. An up-to-date list of related works is maintained at this link.
PDF293December 1, 2025