MagicTime: Модели генерации видео ускоренного воспроизведения как метаморфные симуляторы
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators
April 7, 2024
Авторы: Shenghai Yuan, Jinfa Huang, Yujun Shi, Yongqi Xu, Ruijie Zhu, Bin Lin, Xinhua Cheng, Li Yuan, Jiebo Luo
cs.AI
Аннотация
Недавние достижения в области генерации текста в видео (T2V) достигли замечательных успехов в синтезе высококачественных общих видео из текстовых описаний. В значительной степени недооцененной проблемой в T2V является то, что существующие модели недостаточно закодировали физические знания о реальном мире, поэтому сгенерированные видео имеют ограниченное движение и недостаточное разнообразие. В данной статье мы предлагаем MagicTime, модель генерации видео с метаморфозами времени, которая изучает физические знания о мире из видео с ускоренным временем и реализует метаморфозную генерацию. Во-первых, мы разрабатываем схему MagicAdapter для разделения пространственного и временного обучения, кодируем больше физических знаний из видео с метаморфозами и преобразуем предварительно обученные модели T2V для генерации видео с метаморфозами. Во-вторых, мы представляем стратегию извлечения динамических кадров для адаптации к видео с метаморфозами времени, которые имеют более широкий диапазон вариации и охватывают драматические процессы метаморфозы объектов, таким образом, воплощая больше физических знаний, чем общие видео. Наконец, мы представляем Magic Text-Encoder для улучшения понимания текстовых подсказок для видео с метаморфозами. Кроме того, мы создаем набор данных видео-текст ChronoMagic, специально подобранный для разблокировки способности генерации видео с метаморфозами. Обширные эксперименты демонстрируют превосходство и эффективность MagicTime в генерации высококачественных и динамичных видео с метаморфозами, что указывает на то, что генерация видео с ускоренным временем является многообещающим путем к созданию метаморфозных симуляторов физического мира.
English
Recent advances in Text-to-Video generation (T2V) have achieved remarkable
success in synthesizing high-quality general videos from textual descriptions.
A largely overlooked problem in T2V is that existing models have not adequately
encoded physical knowledge of the real world, thus generated videos tend to
have limited motion and poor variations. In this paper, we propose
MagicTime, a metamorphic time-lapse video generation model, which
learns real-world physics knowledge from time-lapse videos and implements
metamorphic generation. First, we design a MagicAdapter scheme to decouple
spatial and temporal training, encode more physical knowledge from metamorphic
videos, and transform pre-trained T2V models to generate metamorphic videos.
Second, we introduce a Dynamic Frames Extraction strategy to adapt to
metamorphic time-lapse videos, which have a wider variation range and cover
dramatic object metamorphic processes, thus embodying more physical knowledge
than general videos. Finally, we introduce a Magic Text-Encoder to improve the
understanding of metamorphic video prompts. Furthermore, we create a time-lapse
video-text dataset called ChronoMagic, specifically curated to unlock
the metamorphic video generation ability. Extensive experiments demonstrate the
superiority and effectiveness of MagicTime for generating high-quality and
dynamic metamorphic videos, suggesting time-lapse video generation is a
promising path toward building metamorphic simulators of the physical world.Summary
AI-Generated Summary