MagicVideo-V2: Generación de Vídeo Multietapa de Alta Estética
MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
January 9, 2024
Autores: Weimin Wang, Jiawei Liu, Zhijie Lin, Jiangqiao Yan, Shuo Chen, Chetwin Low, Tuyen Hoang, Jie Wu, Jun Hao Liew, Hanshu Yan, Daquan Zhou, Jiashi Feng
cs.AI
Resumen
La creciente demanda de generación de vídeo de alta fidelidad a partir de descripciones textuales ha catalizado una investigación significativa en este campo. En este trabajo, presentamos MagicVideo-V2, que integra el modelo de texto a imagen, el generador de movimiento de vídeo, el módulo de incrustación de imágenes de referencia y el módulo de interpolación de fotogramas en una canalización de generación de vídeo de extremo a extremo. Gracias a estos diseños arquitectónicos, MagicVideo-V2 puede generar un vídeo estéticamente agradable y de alta resolución con una fidelidad y suavidad notables. Demuestra un rendimiento superior sobre sistemas líderes de Texto a Vídeo como Runway, Pika 1.0, Morph, Moon Valley y el modelo Stable Video Diffusion a través de una evaluación de usuarios a gran escala.
English
The growing demand for high-fidelity video generation from textual
descriptions has catalyzed significant research in this field. In this work, we
introduce MagicVideo-V2 that integrates the text-to-image model, video motion
generator, reference image embedding module and frame interpolation module into
an end-to-end video generation pipeline. Benefiting from these architecture
designs, MagicVideo-V2 can generate an aesthetically pleasing, high-resolution
video with remarkable fidelity and smoothness. It demonstrates superior
performance over leading Text-to-Video systems such as Runway, Pika 1.0, Morph,
Moon Valley and Stable Video Diffusion model via user evaluation at large
scale.