ChatPaper.aiChatPaper

インタラクティブ生成型ビデオのサーベイ

A Survey of Interactive Generative Video

April 30, 2025
著者: Jiwen Yu, Yiran Qin, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Hao Chen, Xihui Liu
cs.AI

要旨

インタラクティブ生成ビデオ(IGV)は、様々な分野における高品質でインタラクティブなビデオコンテンツの需要の高まりに対応する重要な技術として登場しました。本論文では、IGVを、多様な高品質ビデオコンテンツを生成する能力と、制御信号と応答フィードバックを通じてユーザーエンゲージメントを可能にするインタラクティブ機能を組み合わせた技術と定義します。我々は、IGVの現在の応用状況を調査し、以下の3つの主要な分野に焦点を当てます:1)ゲーム分野では、IGVが仮想世界における無限の探索を可能にすること、2)エンボディードAI分野では、IGVが動的に進化するシーンとのマルチモーダルインタラクションにおいてエージェントを訓練するための物理認識環境合成装置として機能すること、3)自動運転分野では、IGVが安全クリティカルなテストと検証のための閉ループシミュレーション能力を提供することです。今後の開発を導くために、理想的なIGVシステムを5つの必須モジュール(生成、制御、メモリ、ダイナミクス、知能)に分解する包括的なフレームワークを提案します。さらに、理想的なIGVシステムを実現するための各コンポーネントにおける技術的課題と将来の方向性、例えばリアルタイム生成の達成、オープンドメイン制御の実現、長期的な一貫性の維持、正確な物理シミュレーション、因果推論の統合などを体系的に分析します。この体系的な分析が、IGV分野における今後の研究開発を促進し、最終的により洗練された実用的な応用に向けて技術を進歩させることを我々は信じています。
English
Interactive Generative Video (IGV) has emerged as a crucial technology in response to the growing demand for high-quality, interactive video content across various domains. In this paper, we define IGV as a technology that combines generative capabilities to produce diverse high-quality video content with interactive features that enable user engagement through control signals and responsive feedback. We survey the current landscape of IGV applications, focusing on three major domains: 1) gaming, where IGV enables infinite exploration in virtual worlds; 2) embodied AI, where IGV serves as a physics-aware environment synthesizer for training agents in multimodal interaction with dynamically evolving scenes; and 3) autonomous driving, where IGV provides closed-loop simulation capabilities for safety-critical testing and validation. To guide future development, we propose a comprehensive framework that decomposes an ideal IGV system into five essential modules: Generation, Control, Memory, Dynamics, and Intelligence. Furthermore, we systematically analyze the technical challenges and future directions in realizing each component for an ideal IGV system, such as achieving real-time generation, enabling open-domain control, maintaining long-term coherence, simulating accurate physics, and integrating causal reasoning. We believe that this systematic analysis will facilitate future research and development in the field of IGV, ultimately advancing the technology toward more sophisticated and practical applications.

Summary

AI-Generated Summary

PDF421May 4, 2025