ChatPaper.aiChatPaper

Een overzicht van interactieve generatieve video

A Survey of Interactive Generative Video

April 30, 2025
Auteurs: Jiwen Yu, Yiran Qin, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Hao Chen, Xihui Liu
cs.AI

Samenvatting

Interactieve Generatieve Video (IGV) is naar voren gekomen als een cruciale technologie als reactie op de groeiende vraag naar hoogwaardige, interactieve video-inhoud in verschillende domeinen. In dit artikel definiëren we IGV als een technologie die generatieve mogelijkheden combineert om diverse hoogwaardige video-inhoud te produceren met interactieve functies die gebruikersbetrokkenheid mogelijk maken via controlesignalen en responsieve feedback. We geven een overzicht van de huidige toepassingen van IGV, met de focus op drie belangrijke domeinen: 1) gaming, waar IGV oneindige verkenning in virtuele werelden mogelijk maakt; 2) embodied AI, waar IGV dient als een fysica-bewuste omgevingssynthesizer voor het trainen van agents in multimodale interactie met dynamisch evoluerende scènes; en 3) autonoom rijden, waar IGV gesloten-lus simulatiemogelijkheden biedt voor veiligheidskritische tests en validatie. Om toekomstige ontwikkeling te begeleiden, stellen we een uitgebreid raamwerk voor dat een ideaal IGV-systeem opsplitst in vijf essentiële modules: Generatie, Controle, Geheugen, Dynamiek en Intelligentie. Bovendien analyseren we systematisch de technische uitdagingen en toekomstige richtingen voor het realiseren van elk onderdeel van een ideaal IGV-systeem, zoals het bereiken van real-time generatie, het mogelijk maken van open-domein controle, het behouden van langetermijncoherentie, het simuleren van nauwkeurige fysica en het integreren van causaal redeneren. We geloven dat deze systematische analyse toekomstig onderzoek en ontwikkeling op het gebied van IGV zal bevorderen, waardoor de technologie uiteindelijk wordt geavanceerd naar meer verfijnde en praktische toepassingen.
English
Interactive Generative Video (IGV) has emerged as a crucial technology in response to the growing demand for high-quality, interactive video content across various domains. In this paper, we define IGV as a technology that combines generative capabilities to produce diverse high-quality video content with interactive features that enable user engagement through control signals and responsive feedback. We survey the current landscape of IGV applications, focusing on three major domains: 1) gaming, where IGV enables infinite exploration in virtual worlds; 2) embodied AI, where IGV serves as a physics-aware environment synthesizer for training agents in multimodal interaction with dynamically evolving scenes; and 3) autonomous driving, where IGV provides closed-loop simulation capabilities for safety-critical testing and validation. To guide future development, we propose a comprehensive framework that decomposes an ideal IGV system into five essential modules: Generation, Control, Memory, Dynamics, and Intelligence. Furthermore, we systematically analyze the technical challenges and future directions in realizing each component for an ideal IGV system, such as achieving real-time generation, enabling open-domain control, maintaining long-term coherence, simulating accurate physics, and integrating causal reasoning. We believe that this systematic analysis will facilitate future research and development in the field of IGV, ultimately advancing the technology toward more sophisticated and practical applications.
PDF461May 4, 2025