ChatPaper.aiChatPaper

Обзор интерактивной генеративной видеоаналитики

A Survey of Interactive Generative Video

April 30, 2025
Авторы: Jiwen Yu, Yiran Qin, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Hao Chen, Xihui Liu
cs.AI

Аннотация

Интерактивное генеративное видео (IGV) стало ключевой технологией в ответ на растущий спрос на высококачественный интерактивный видеоконтент в различных областях. В данной статье мы определяем IGV как технологию, которая сочетает генеративные возможности для создания разнообразного высококачественного видеоконтента с интерактивными функциями, позволяющими вовлечение пользователей через управляющие сигналы и оперативную обратную связь. Мы исследуем текущее состояние приложений IGV, сосредоточившись на трех основных областях: 1) игровая индустрия, где IGV обеспечивает бесконечное исследование виртуальных миров; 2) воплощенный искусственный интеллект, где IGV выступает в качестве физически осведомленного синтезатора среды для обучения агентов в условиях мультимодального взаимодействия с динамически изменяющимися сценами; и 3) автономное вождение, где IGV предоставляет возможности замкнутого цикла моделирования для критически важных тестов и проверки безопасности. Для направления будущего развития мы предлагаем всеобъемлющую структуру, которая разбивает идеальную систему IGV на пять основных модулей: Генерация, Управление, Память, Динамика и Интеллект. Кроме того, мы систематически анализируем технические вызовы и будущие направления в реализации каждого компонента для идеальной системы IGV, такие как достижение генерации в реальном времени, обеспечение управления в открытой области, поддержание долгосрочной согласованности, моделирование точной физики и интеграция причинно-следственных рассуждений. Мы считаем, что этот систематический анализ будет способствовать будущим исследованиям и разработкам в области IGV, в конечном итоге продвигая технологию к более сложным и практическим применениям.
English
Interactive Generative Video (IGV) has emerged as a crucial technology in response to the growing demand for high-quality, interactive video content across various domains. In this paper, we define IGV as a technology that combines generative capabilities to produce diverse high-quality video content with interactive features that enable user engagement through control signals and responsive feedback. We survey the current landscape of IGV applications, focusing on three major domains: 1) gaming, where IGV enables infinite exploration in virtual worlds; 2) embodied AI, where IGV serves as a physics-aware environment synthesizer for training agents in multimodal interaction with dynamically evolving scenes; and 3) autonomous driving, where IGV provides closed-loop simulation capabilities for safety-critical testing and validation. To guide future development, we propose a comprehensive framework that decomposes an ideal IGV system into five essential modules: Generation, Control, Memory, Dynamics, and Intelligence. Furthermore, we systematically analyze the technical challenges and future directions in realizing each component for an ideal IGV system, such as achieving real-time generation, enabling open-domain control, maintaining long-term coherence, simulating accurate physics, and integrating causal reasoning. We believe that this systematic analysis will facilitate future research and development in the field of IGV, ultimately advancing the technology toward more sophisticated and practical applications.

Summary

AI-Generated Summary

PDF421May 4, 2025