Uma Análise da Geração Interativa de Vídeo
A Survey of Interactive Generative Video
April 30, 2025
Autores: Jiwen Yu, Yiran Qin, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Hao Chen, Xihui Liu
cs.AI
Resumo
O Vídeo Generativo Interativo (IGV) emergiu como uma tecnologia crucial em resposta à crescente demanda por conteúdo de vídeo interativo e de alta qualidade em diversos domínios. Neste artigo, definimos IGV como uma tecnologia que combina capacidades generativas para produzir conteúdo de vídeo diversificado e de alta qualidade com recursos interativos que permitem o engajamento do usuário por meio de sinais de controle e feedback responsivo. Examinamos o cenário atual das aplicações de IGV, focando em três grandes domínios: 1) jogos, onde o IGV possibilita exploração infinita em mundos virtuais; 2) IA incorporada, onde o IGV atua como um sintetizador de ambientes com consciência física para treinar agentes em interação multimodal com cenas em evolução dinâmica; e 3) direção autônoma, onde o IGV fornece capacidades de simulação em circuito fechado para testes e validação de segurança crítica. Para orientar o desenvolvimento futuro, propomos um framework abrangente que decompõe um sistema IGV ideal em cinco módulos essenciais: Geração, Controle, Memória, Dinâmica e Inteligência. Além disso, analisamos sistematicamente os desafios técnicos e as direções futuras para a realização de cada componente de um sistema IGV ideal, como alcançar geração em tempo real, habilitar controle de domínio aberto, manter coerência de longo prazo, simular física precisa e integrar raciocínio causal. Acreditamos que essa análise sistemática facilitará pesquisas e desenvolvimentos futuros no campo do IGV, avançando a tecnologia em direção a aplicações mais sofisticadas e práticas.
English
Interactive Generative Video (IGV) has emerged as a crucial technology in
response to the growing demand for high-quality, interactive video content
across various domains. In this paper, we define IGV as a technology that
combines generative capabilities to produce diverse high-quality video content
with interactive features that enable user engagement through control signals
and responsive feedback. We survey the current landscape of IGV applications,
focusing on three major domains: 1) gaming, where IGV enables infinite
exploration in virtual worlds; 2) embodied AI, where IGV serves as a
physics-aware environment synthesizer for training agents in multimodal
interaction with dynamically evolving scenes; and 3) autonomous driving, where
IGV provides closed-loop simulation capabilities for safety-critical testing
and validation. To guide future development, we propose a comprehensive
framework that decomposes an ideal IGV system into five essential modules:
Generation, Control, Memory, Dynamics, and Intelligence. Furthermore, we
systematically analyze the technical challenges and future directions in
realizing each component for an ideal IGV system, such as achieving real-time
generation, enabling open-domain control, maintaining long-term coherence,
simulating accurate physics, and integrating causal reasoning. We believe that
this systematic analysis will facilitate future research and development in the
field of IGV, ultimately advancing the technology toward more sophisticated and
practical applications.