MagicTime: Модели генерации видео ускоренного воспроизведения как метаморфные симуляторы

Аннотация

Недавние достижения в области генерации текста в видео (T2V) достигли замечательных успехов в синтезе высококачественных общих видео из текстовых описаний. В значительной степени недооцененной проблемой в T2V является то, что существующие модели недостаточно закодировали физические знания о реальном мире, поэтому сгенерированные видео имеют ограниченное движение и недостаточное разнообразие. В данной статье мы предлагаем MagicTime, модель генерации видео с метаморфозами времени, которая изучает физические знания о мире из видео с ускоренным временем и реализует метаморфозную генерацию. Во-первых, мы разрабатываем схему MagicAdapter для разделения пространственного и временного обучения, кодируем больше физических знаний из видео с метаморфозами и преобразуем предварительно обученные модели T2V для генерации видео с метаморфозами. Во-вторых, мы представляем стратегию извлечения динамических кадров для адаптации к видео с метаморфозами времени, которые имеют более широкий диапазон вариации и охватывают драматические процессы метаморфозы объектов, таким образом, воплощая больше физических знаний, чем общие видео. Наконец, мы представляем Magic Text-Encoder для улучшения понимания текстовых подсказок для видео с метаморфозами. Кроме того, мы создаем набор данных видео-текст ChronoMagic, специально подобранный для разблокировки способности генерации видео с метаморфозами. Обширные эксперименты демонстрируют превосходство и эффективность MagicTime в генерации высококачественных и динамичных видео с метаморфозами, что указывает на то, что генерация видео с ускоренным временем является многообещающим путем к созданию метаморфозных симуляторов физического мира.

English

Recent advances in Text-to-Video generation (T2V) have achieved remarkable success in synthesizing high-quality general videos from textual descriptions. A largely overlooked problem in T2V is that existing models have not adequately encoded physical knowledge of the real world, thus generated videos tend to have limited motion and poor variations. In this paper, we propose MagicTime, a metamorphic time-lapse video generation model, which learns real-world physics knowledge from time-lapse videos and implements metamorphic generation. First, we design a MagicAdapter scheme to decouple spatial and temporal training, encode more physical knowledge from metamorphic videos, and transform pre-trained T2V models to generate metamorphic videos. Second, we introduce a Dynamic Frames Extraction strategy to adapt to metamorphic time-lapse videos, which have a wider variation range and cover dramatic object metamorphic processes, thus embodying more physical knowledge than general videos. Finally, we introduce a Magic Text-Encoder to improve the understanding of metamorphic video prompts. Furthermore, we create a time-lapse video-text dataset called ChronoMagic, specifically curated to unlock the metamorphic video generation ability. Extensive experiments demonstrate the superiority and effectiveness of MagicTime for generating high-quality and dynamic metamorphic videos, suggesting time-lapse video generation is a promising path toward building metamorphic simulators of the physical world.

MagicTime: Модели генерации видео ускоренного воспроизведения как метаморфные симуляторы

MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators

Аннотация

Support