ChatPaper.aiChatPaper

Eine Übersicht über interaktive generative Videoerzeugung

A Survey of Interactive Generative Video

April 30, 2025
Autoren: Jiwen Yu, Yiran Qin, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Hao Chen, Xihui Liu
cs.AI

Zusammenfassung

Interaktives Generatives Video (IGV) hat sich als eine entscheidende Technologie etabliert, um der wachsenden Nachfrage nach hochwertigen, interaktiven Videoinhalten in verschiedenen Domänen gerecht zu werden. In diesem Artikel definieren wir IGV als eine Technologie, die generative Fähigkeiten zur Erzeugung vielfältiger, hochwertiger Videoinhalte mit interaktiven Funktionen kombiniert, die Benutzerengagement durch Steuersignale und reaktives Feedback ermöglichen. Wir untersuchen die aktuelle Landschaft der IGV-Anwendungen mit einem Fokus auf drei Hauptbereiche: 1) Gaming, wo IGV unendliche Exploration in virtuellen Welten ermöglicht; 2) verkörperte KI, wo IGV als physikbewusster Umgebungssynthesizer für das Training von Agenten in multimodaler Interaktion mit sich dynamisch entwickelnden Szenen dient; und 3) autonomes Fahren, wo IGV geschlossene Simulationsfähigkeiten für sicherheitskritische Tests und Validierungen bereitstellt. Um die zukünftige Entwicklung zu leiten, schlagen wir ein umfassendes Framework vor, das ein ideales IGV-System in fünf wesentliche Module zerlegt: Generierung, Steuerung, Speicher, Dynamik und Intelligenz. Darüber hinaus analysieren wir systematisch die technischen Herausforderungen und zukünftigen Richtungen bei der Realisierung jeder Komponente für ein ideales IGV-System, wie z. B. die Erreichung von Echtzeitgenerierung, die Ermöglichung von offener Domänenkontrolle, die Aufrechterhaltung von langfristiger Kohärenz, die Simulation präziser Physik und die Integration von kausalem Denken. Wir glauben, dass diese systematische Analyse zukünftige Forschung und Entwicklung im Bereich IGV erleichtern wird und die Technologie letztendlich in Richtung anspruchsvollerer und praktischerer Anwendungen vorantreiben wird.
English
Interactive Generative Video (IGV) has emerged as a crucial technology in response to the growing demand for high-quality, interactive video content across various domains. In this paper, we define IGV as a technology that combines generative capabilities to produce diverse high-quality video content with interactive features that enable user engagement through control signals and responsive feedback. We survey the current landscape of IGV applications, focusing on three major domains: 1) gaming, where IGV enables infinite exploration in virtual worlds; 2) embodied AI, where IGV serves as a physics-aware environment synthesizer for training agents in multimodal interaction with dynamically evolving scenes; and 3) autonomous driving, where IGV provides closed-loop simulation capabilities for safety-critical testing and validation. To guide future development, we propose a comprehensive framework that decomposes an ideal IGV system into five essential modules: Generation, Control, Memory, Dynamics, and Intelligence. Furthermore, we systematically analyze the technical challenges and future directions in realizing each component for an ideal IGV system, such as achieving real-time generation, enabling open-domain control, maintaining long-term coherence, simulating accurate physics, and integrating causal reasoning. We believe that this systematic analysis will facilitate future research and development in the field of IGV, ultimately advancing the technology toward more sophisticated and practical applications.

Summary

AI-Generated Summary

PDF421May 4, 2025