MagicVideo-V2: Geração de Vídeos de Alta Estética em Múltiplos Estágios
MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
January 9, 2024
Autores: Weimin Wang, Jiawei Liu, Zhijie Lin, Jiangqiao Yan, Shuo Chen, Chetwin Low, Tuyen Hoang, Jie Wu, Jun Hao Liew, Hanshu Yan, Daquan Zhou, Jiashi Feng
cs.AI
Resumo
A crescente demanda por geração de vídeos de alta fidelidade a partir de descrições textuais tem catalisado pesquisas significativas nesse campo. Neste trabalho, apresentamos o MagicVideo-V2, que integra o modelo de texto para imagem, o gerador de movimento de vídeo, o módulo de incorporação de imagem de referência e o módulo de interpolação de quadros em um pipeline de geração de vídeo de ponta a ponta. Beneficiando-se desses designs de arquitetura, o MagicVideo-V2 é capaz de gerar vídeos esteticamente agradáveis, de alta resolução, com fidelidade e suavidade notáveis. Ele demonstra desempenho superior em relação a sistemas líderes de Texto para Vídeo, como Runway, Pika 1.0, Morph, Moon Valley e o modelo Stable Video Diffusion, por meio de avaliações de usuários em grande escala.
English
The growing demand for high-fidelity video generation from textual
descriptions has catalyzed significant research in this field. In this work, we
introduce MagicVideo-V2 that integrates the text-to-image model, video motion
generator, reference image embedding module and frame interpolation module into
an end-to-end video generation pipeline. Benefiting from these architecture
designs, MagicVideo-V2 can generate an aesthetically pleasing, high-resolution
video with remarkable fidelity and smoothness. It demonstrates superior
performance over leading Text-to-Video systems such as Runway, Pika 1.0, Morph,
Moon Valley and Stable Video Diffusion model via user evaluation at large
scale.