Una Revisión de la Generación Interactiva de Vídeo
A Survey of Interactive Generative Video
April 30, 2025
Autores: Jiwen Yu, Yiran Qin, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Hao Chen, Xihui Liu
cs.AI
Resumen
El Video Generativo Interactivo (IGV, por sus siglas en inglés) ha surgido como una tecnología crucial en respuesta a la creciente demanda de contenido de video interactivo y de alta calidad en diversos dominios. En este artículo, definimos IGV como una tecnología que combina capacidades generativas para producir contenido de video diverso y de alta calidad con características interactivas que permiten la participación del usuario a través de señales de control y retroalimentación reactiva. Examinamos el panorama actual de las aplicaciones de IGV, centrándonos en tres dominios principales: 1) los videojuegos, donde el IGV permite una exploración infinita en mundos virtuales; 2) la IA encarnada, donde el IGV funciona como un sintetizador de entornos consciente de la física para entrenar agentes en interacción multimodal con escenas que evolucionan dinámicamente; y 3) la conducción autónoma, donde el IGV proporciona capacidades de simulación en bucle cerrado para pruebas y validación críticas para la seguridad. Para guiar el desarrollo futuro, proponemos un marco integral que descompone un sistema IGV ideal en cinco módulos esenciales: Generación, Control, Memoria, Dinámica e Inteligencia. Además, analizamos sistemáticamente los desafíos técnicos y las direcciones futuras para realizar cada componente de un sistema IGV ideal, como lograr la generación en tiempo real, habilitar el control de dominio abierto, mantener la coherencia a largo plazo, simular física precisa e integrar razonamiento causal. Creemos que este análisis sistemático facilitará la investigación y el desarrollo futuros en el campo del IGV, avanzando finalmente la tecnología hacia aplicaciones más sofisticadas y prácticas.
English
Interactive Generative Video (IGV) has emerged as a crucial technology in
response to the growing demand for high-quality, interactive video content
across various domains. In this paper, we define IGV as a technology that
combines generative capabilities to produce diverse high-quality video content
with interactive features that enable user engagement through control signals
and responsive feedback. We survey the current landscape of IGV applications,
focusing on three major domains: 1) gaming, where IGV enables infinite
exploration in virtual worlds; 2) embodied AI, where IGV serves as a
physics-aware environment synthesizer for training agents in multimodal
interaction with dynamically evolving scenes; and 3) autonomous driving, where
IGV provides closed-loop simulation capabilities for safety-critical testing
and validation. To guide future development, we propose a comprehensive
framework that decomposes an ideal IGV system into five essential modules:
Generation, Control, Memory, Dynamics, and Intelligence. Furthermore, we
systematically analyze the technical challenges and future directions in
realizing each component for an ideal IGV system, such as achieving real-time
generation, enabling open-domain control, maintaining long-term coherence,
simulating accurate physics, and integrating causal reasoning. We believe that
this systematic analysis will facilitate future research and development in the
field of IGV, ultimately advancing the technology toward more sophisticated and
practical applications.Summary
AI-Generated Summary