MagicVideo-V2: Многоэтапная генерация видео с высокой эстетической ценностью

Аннотация

Растущий спрос на генерацию высококачественных видео из текстовых описаний стимулировал активные исследования в этой области. В данной работе мы представляем MagicVideo-V2, который объединяет модель преобразования текста в изображение, генератор движения видео, модуль встраивания эталонных изображений и модуль интерполяции кадров в единый сквозной конвейер генерации видео. Благодаря этим архитектурным решениям, MagicVideo-V2 способен создавать эстетически привлекательные видео высокого разрешения с выдающейся точностью и плавностью. Система демонстрирует превосходную производительность по сравнению с ведущими системами преобразования текста в видео, такими как Runway, Pika 1.0, Morph, Moon Valley и моделью Stable Video Diffusion, что подтверждается масштабной пользовательской оценкой.

English

The growing demand for high-fidelity video generation from textual descriptions has catalyzed significant research in this field. In this work, we introduce MagicVideo-V2 that integrates the text-to-image model, video motion generator, reference image embedding module and frame interpolation module into an end-to-end video generation pipeline. Benefiting from these architecture designs, MagicVideo-V2 can generate an aesthetically pleasing, high-resolution video with remarkable fidelity and smoothness. It demonstrates superior performance over leading Text-to-Video systems such as Runway, Pika 1.0, Morph, Moon Valley and Stable Video Diffusion model via user evaluation at large scale.

MagicVideo-V2: Многоэтапная генерация видео с высокой эстетической ценностью

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

Аннотация

Support