Une étude sur la génération interactive de vidéos
A Survey of Interactive Generative Video
April 30, 2025
Auteurs: Jiwen Yu, Yiran Qin, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Hao Chen, Xihui Liu
cs.AI
Résumé
La vidéo générative interactive (Interactive Generative Video, IGV) est apparue comme une technologie cruciale en réponse à la demande croissante de contenus vidéo interactifs de haute qualité dans divers domaines. Dans cet article, nous définissons l'IGV comme une technologie qui combine des capacités génératives pour produire des contenus vidéo diversifiés et de haute qualité avec des fonctionnalités interactives permettant l'engagement des utilisateurs grâce à des signaux de contrôle et des retours réactifs. Nous examinons le paysage actuel des applications de l'IGV, en nous concentrant sur trois domaines majeurs : 1) les jeux vidéo, où l'IGV permet une exploration infinie dans des mondes virtuels ; 2) l'IA incarnée, où l'IGV sert de synthétiseur d'environnements conscients de la physique pour entraîner des agents dans des interactions multimodales avec des scènes en évolution dynamique ; et 3) la conduite autonome, où l'IGV offre des capacités de simulation en boucle fermée pour des tests et validations critiques en matière de sécurité. Pour orienter le développement futur, nous proposons un cadre complet qui décompose un système IGV idéal en cinq modules essentiels : Génération, Contrôle, Mémoire, Dynamique et Intelligence. De plus, nous analysons systématiquement les défis techniques et les orientations futures pour réaliser chaque composant d'un système IGV idéal, tels que la génération en temps réel, le contrôle en domaine ouvert, le maintien de la cohérence à long terme, la simulation de la physique précise et l'intégration du raisonnement causal. Nous pensons que cette analyse systématique facilitera la recherche et le développement futurs dans le domaine de l'IGV, faisant ainsi progresser la technologie vers des applications plus sophistiquées et pratiques.
English
Interactive Generative Video (IGV) has emerged as a crucial technology in
response to the growing demand for high-quality, interactive video content
across various domains. In this paper, we define IGV as a technology that
combines generative capabilities to produce diverse high-quality video content
with interactive features that enable user engagement through control signals
and responsive feedback. We survey the current landscape of IGV applications,
focusing on three major domains: 1) gaming, where IGV enables infinite
exploration in virtual worlds; 2) embodied AI, where IGV serves as a
physics-aware environment synthesizer for training agents in multimodal
interaction with dynamically evolving scenes; and 3) autonomous driving, where
IGV provides closed-loop simulation capabilities for safety-critical testing
and validation. To guide future development, we propose a comprehensive
framework that decomposes an ideal IGV system into five essential modules:
Generation, Control, Memory, Dynamics, and Intelligence. Furthermore, we
systematically analyze the technical challenges and future directions in
realizing each component for an ideal IGV system, such as achieving real-time
generation, enabling open-domain control, maintaining long-term coherence,
simulating accurate physics, and integrating causal reasoning. We believe that
this systematic analysis will facilitate future research and development in the
field of IGV, ultimately advancing the technology toward more sophisticated and
practical applications.Summary
AI-Generated Summary