MagicVideo-V2: Mehrstufige Erzeugung hochästhetischer Videos
MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
January 9, 2024
Autoren: Weimin Wang, Jiawei Liu, Zhijie Lin, Jiangqiao Yan, Shuo Chen, Chetwin Low, Tuyen Hoang, Jie Wu, Jun Hao Liew, Hanshu Yan, Daquan Zhou, Jiashi Feng
cs.AI
Zusammenfassung
Die zunehmende Nachfrage nach hochwertiger Videogenerierung aus textuellen Beschreibungen hat erhebliche Forschungsaktivitäten in diesem Bereich vorangetrieben. In dieser Arbeit stellen wir MagicVideo-V2 vor, das das Text-zu-Bild-Modell, den Videobewegungsgenerator, das Referenzbild-Einbettungsmodul und das Frame-Interpolationsmodul in eine End-to-End-Videogenerierungspipeline integriert. Dank dieser Architekturdesigns kann MagicVideo-V2 ästhetisch ansprechende, hochauflösende Videos mit bemerkenswerter Detailtreue und Flüssigkeit erzeugen. Es zeigt eine überlegene Leistung gegenüber führenden Text-zu-Video-Systemen wie Runway, Pika 1.0, Morph, Moon Valley und dem Stable Video Diffusion-Modell in groß angelegten Benutzerbewertungen.
English
The growing demand for high-fidelity video generation from textual
descriptions has catalyzed significant research in this field. In this work, we
introduce MagicVideo-V2 that integrates the text-to-image model, video motion
generator, reference image embedding module and frame interpolation module into
an end-to-end video generation pipeline. Benefiting from these architecture
designs, MagicVideo-V2 can generate an aesthetically pleasing, high-resolution
video with remarkable fidelity and smoothness. It demonstrates superior
performance over leading Text-to-Video systems such as Runway, Pika 1.0, Morph,
Moon Valley and Stable Video Diffusion model via user evaluation at large
scale.