MagicVideo-V2: Многоэтапная генерация видео с высокой эстетической ценностью
MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
January 9, 2024
Авторы: Weimin Wang, Jiawei Liu, Zhijie Lin, Jiangqiao Yan, Shuo Chen, Chetwin Low, Tuyen Hoang, Jie Wu, Jun Hao Liew, Hanshu Yan, Daquan Zhou, Jiashi Feng
cs.AI
Аннотация
Растущий спрос на генерацию высококачественных видео из текстовых описаний стимулировал активные исследования в этой области. В данной работе мы представляем MagicVideo-V2, который объединяет модель преобразования текста в изображение, генератор движения видео, модуль встраивания эталонных изображений и модуль интерполяции кадров в единый сквозной конвейер генерации видео. Благодаря этим архитектурным решениям, MagicVideo-V2 способен создавать эстетически привлекательные видео высокого разрешения с выдающейся точностью и плавностью. Система демонстрирует превосходную производительность по сравнению с ведущими системами преобразования текста в видео, такими как Runway, Pika 1.0, Morph, Moon Valley и моделью Stable Video Diffusion, что подтверждается масштабной пользовательской оценкой.
English
The growing demand for high-fidelity video generation from textual
descriptions has catalyzed significant research in this field. In this work, we
introduce MagicVideo-V2 that integrates the text-to-image model, video motion
generator, reference image embedding module and frame interpolation module into
an end-to-end video generation pipeline. Benefiting from these architecture
designs, MagicVideo-V2 can generate an aesthetically pleasing, high-resolution
video with remarkable fidelity and smoothness. It demonstrates superior
performance over leading Text-to-Video systems such as Runway, Pika 1.0, Morph,
Moon Valley and Stable Video Diffusion model via user evaluation at large
scale.