MagicVideo-V2: Generación de Vídeo Multietapa de Alta Estética

Resumen

La creciente demanda de generación de vídeo de alta fidelidad a partir de descripciones textuales ha catalizado una investigación significativa en este campo. En este trabajo, presentamos MagicVideo-V2, que integra el modelo de texto a imagen, el generador de movimiento de vídeo, el módulo de incrustación de imágenes de referencia y el módulo de interpolación de fotogramas en una canalización de generación de vídeo de extremo a extremo. Gracias a estos diseños arquitectónicos, MagicVideo-V2 puede generar un vídeo estéticamente agradable y de alta resolución con una fidelidad y suavidad notables. Demuestra un rendimiento superior sobre sistemas líderes de Texto a Vídeo como Runway, Pika 1.0, Morph, Moon Valley y el modelo Stable Video Diffusion a través de una evaluación de usuarios a gran escala.

English

The growing demand for high-fidelity video generation from textual descriptions has catalyzed significant research in this field. In this work, we introduce MagicVideo-V2 that integrates the text-to-image model, video motion generator, reference image embedding module and frame interpolation module into an end-to-end video generation pipeline. Benefiting from these architecture designs, MagicVideo-V2 can generate an aesthetically pleasing, high-resolution video with remarkable fidelity and smoothness. It demonstrates superior performance over leading Text-to-Video systems such as Runway, Pika 1.0, Morph, Moon Valley and Stable Video Diffusion model via user evaluation at large scale.

MagicVideo-V2: Generación de Vídeo Multietapa de Alta Estética

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

Resumen

Support