MagicVideo-V2 : Génération de vidéos haute esthétique en plusieurs étapes
MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
January 9, 2024
Auteurs: Weimin Wang, Jiawei Liu, Zhijie Lin, Jiangqiao Yan, Shuo Chen, Chetwin Low, Tuyen Hoang, Jie Wu, Jun Hao Liew, Hanshu Yan, Daquan Zhou, Jiashi Feng
cs.AI
Résumé
La demande croissante pour la génération de vidéos haute fidélité à partir de descriptions textuelles a catalysé des recherches significatives dans ce domaine. Dans ce travail, nous présentons MagicVideo-V2, qui intègre un modèle de génération d'images à partir de texte, un générateur de mouvement vidéo, un module d'incorporation d'images de référence et un module d'interpolation d'images dans un pipeline de génération de vidéos de bout en bout. Grâce à ces conceptions architecturales, MagicVideo-V2 est capable de générer une vidéo esthétiquement plaisante, en haute résolution, avec une fidélité et une fluidité remarquables. Il démontre une performance supérieure par rapport aux systèmes de pointe de génération de texte à vidéo tels que Runway, Pika 1.0, Morph, Moon Valley et le modèle Stable Video Diffusion, selon des évaluations utilisateurs à grande échelle.
English
The growing demand for high-fidelity video generation from textual
descriptions has catalyzed significant research in this field. In this work, we
introduce MagicVideo-V2 that integrates the text-to-image model, video motion
generator, reference image embedding module and frame interpolation module into
an end-to-end video generation pipeline. Benefiting from these architecture
designs, MagicVideo-V2 can generate an aesthetically pleasing, high-resolution
video with remarkable fidelity and smoothness. It demonstrates superior
performance over leading Text-to-Video systems such as Runway, Pika 1.0, Morph,
Moon Valley and Stable Video Diffusion model via user evaluation at large
scale.