Una Rassegna sulla Generazione Interattiva di Video
A Survey of Interactive Generative Video
April 30, 2025
Autori: Jiwen Yu, Yiran Qin, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Hao Chen, Xihui Liu
cs.AI
Abstract
Il Video Generativo Interattivo (IGV) è emerso come una tecnologia cruciale in risposta alla crescente domanda di contenuti video interattivi di alta qualità in vari ambiti. In questo articolo, definiamo l'IGV come una tecnologia che combina capacità generative per produrre contenuti video diversificati e di alta qualità con funzionalità interattive che consentono l'engagement degli utenti attraverso segnali di controllo e feedback reattivi. Esaminiamo il panorama attuale delle applicazioni dell'IGV, concentrandoci su tre domini principali: 1) il gaming, dove l'IGV abilita un'esplorazione infinita in mondi virtuali; 2) l'AI incarnata, dove l'IGV funge da sintetizzatore di ambienti fisicamente consapevoli per addestrare agenti in interazioni multimodali con scene in evoluzione dinamica; e 3) la guida autonoma, dove l'IGV fornisce capacità di simulazione a ciclo chiuso per test e validazione in contesti critici per la sicurezza. Per guidare lo sviluppo futuro, proponiamo un framework completo che scompone un sistema IGV ideale in cinque moduli essenziali: Generazione, Controllo, Memoria, Dinamica e Intelligenza. Inoltre, analizziamo sistematicamente le sfide tecniche e le direzioni future per realizzare ciascun componente di un sistema IGV ideale, come il raggiungimento della generazione in tempo reale, l'abilitazione del controllo in domini aperti, il mantenimento della coerenza a lungo termine, la simulazione di fisiche accurate e l'integrazione del ragionamento causale. Crediamo che questa analisi sistematica faciliterà la ricerca e lo sviluppo futuri nel campo dell'IGV, portando la tecnologia verso applicazioni più sofisticate e pratiche.
English
Interactive Generative Video (IGV) has emerged as a crucial technology in
response to the growing demand for high-quality, interactive video content
across various domains. In this paper, we define IGV as a technology that
combines generative capabilities to produce diverse high-quality video content
with interactive features that enable user engagement through control signals
and responsive feedback. We survey the current landscape of IGV applications,
focusing on three major domains: 1) gaming, where IGV enables infinite
exploration in virtual worlds; 2) embodied AI, where IGV serves as a
physics-aware environment synthesizer for training agents in multimodal
interaction with dynamically evolving scenes; and 3) autonomous driving, where
IGV provides closed-loop simulation capabilities for safety-critical testing
and validation. To guide future development, we propose a comprehensive
framework that decomposes an ideal IGV system into five essential modules:
Generation, Control, Memory, Dynamics, and Intelligence. Furthermore, we
systematically analyze the technical challenges and future directions in
realizing each component for an ideal IGV system, such as achieving real-time
generation, enabling open-domain control, maintaining long-term coherence,
simulating accurate physics, and integrating causal reasoning. We believe that
this systematic analysis will facilitate future research and development in the
field of IGV, ultimately advancing the technology toward more sophisticated and
practical applications.