Eine Übersicht über interaktive generative Videoerzeugung
A Survey of Interactive Generative Video
April 30, 2025
Autoren: Jiwen Yu, Yiran Qin, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Hao Chen, Xihui Liu
cs.AI
Zusammenfassung
Interaktives Generatives Video (IGV) hat sich als eine entscheidende Technologie etabliert, um der wachsenden Nachfrage nach hochwertigen, interaktiven Videoinhalten in verschiedenen Domänen gerecht zu werden. In diesem Artikel definieren wir IGV als eine Technologie, die generative Fähigkeiten zur Erzeugung vielfältiger, hochwertiger Videoinhalte mit interaktiven Funktionen kombiniert, die Benutzerengagement durch Steuersignale und reaktives Feedback ermöglichen. Wir untersuchen die aktuelle Landschaft der IGV-Anwendungen mit einem Fokus auf drei Hauptbereiche: 1) Gaming, wo IGV unendliche Exploration in virtuellen Welten ermöglicht; 2) verkörperte KI, wo IGV als physikbewusster Umgebungssynthesizer für das Training von Agenten in multimodaler Interaktion mit sich dynamisch entwickelnden Szenen dient; und 3) autonomes Fahren, wo IGV geschlossene Simulationsfähigkeiten für sicherheitskritische Tests und Validierungen bereitstellt. Um die zukünftige Entwicklung zu leiten, schlagen wir ein umfassendes Framework vor, das ein ideales IGV-System in fünf wesentliche Module zerlegt: Generierung, Steuerung, Speicher, Dynamik und Intelligenz. Darüber hinaus analysieren wir systematisch die technischen Herausforderungen und zukünftigen Richtungen bei der Realisierung jeder Komponente für ein ideales IGV-System, wie z. B. die Erreichung von Echtzeitgenerierung, die Ermöglichung von offener Domänenkontrolle, die Aufrechterhaltung von langfristiger Kohärenz, die Simulation präziser Physik und die Integration von kausalem Denken. Wir glauben, dass diese systematische Analyse zukünftige Forschung und Entwicklung im Bereich IGV erleichtern wird und die Technologie letztendlich in Richtung anspruchsvollerer und praktischerer Anwendungen vorantreiben wird.
English
Interactive Generative Video (IGV) has emerged as a crucial technology in
response to the growing demand for high-quality, interactive video content
across various domains. In this paper, we define IGV as a technology that
combines generative capabilities to produce diverse high-quality video content
with interactive features that enable user engagement through control signals
and responsive feedback. We survey the current landscape of IGV applications,
focusing on three major domains: 1) gaming, where IGV enables infinite
exploration in virtual worlds; 2) embodied AI, where IGV serves as a
physics-aware environment synthesizer for training agents in multimodal
interaction with dynamically evolving scenes; and 3) autonomous driving, where
IGV provides closed-loop simulation capabilities for safety-critical testing
and validation. To guide future development, we propose a comprehensive
framework that decomposes an ideal IGV system into five essential modules:
Generation, Control, Memory, Dynamics, and Intelligence. Furthermore, we
systematically analyze the technical challenges and future directions in
realizing each component for an ideal IGV system, such as achieving real-time
generation, enabling open-domain control, maintaining long-term coherence,
simulating accurate physics, and integrating causal reasoning. We believe that
this systematic analysis will facilitate future research and development in the
field of IGV, ultimately advancing the technology toward more sophisticated and
practical applications.Summary
AI-Generated Summary