MagicVideo-V2: Многоэтапная генерация видео с высокой эстетической ценностью

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

January 9, 2024
Авторы: Weimin Wang, Jiawei Liu, Zhijie Lin, Jiangqiao Yan, Shuo Chen, Chetwin Low, Tuyen Hoang, Jie Wu, Jun Hao Liew, Hanshu Yan, Daquan Zhou, Jiashi Feng
cs.AI

Аннотация

Растущий спрос на генерацию высококачественных видео из текстовых описаний стимулировал активные исследования в этой области. В данной работе мы представляем MagicVideo-V2, который объединяет модель преобразования текста в изображение, генератор движения видео, модуль встраивания эталонных изображений и модуль интерполяции кадров в единый сквозной конвейер генерации видео. Благодаря этим архитектурным решениям, MagicVideo-V2 способен создавать эстетически привлекательные видео высокого разрешения с выдающейся точностью и плавностью. Система демонстрирует превосходную производительность по сравнению с ведущими системами преобразования текста в видео, такими как Runway, Pika 1.0, Morph, Moon Valley и моделью Stable Video Diffusion, что подтверждается масштабной пользовательской оценкой.
English
The growing demand for high-fidelity video generation from textual descriptions has catalyzed significant research in this field. In this work, we introduce MagicVideo-V2 that integrates the text-to-image model, video motion generator, reference image embedding module and frame interpolation module into an end-to-end video generation pipeline. Benefiting from these architecture designs, MagicVideo-V2 can generate an aesthetically pleasing, high-resolution video with remarkable fidelity and smoothness. It demonstrates superior performance over leading Text-to-Video systems such as Runway, Pika 1.0, Morph, Moon Valley and Stable Video Diffusion model via user evaluation at large scale.
PDF506December 15, 2024