ChatPaper.aiChatPaper

MagicVideo-V2: Multi-staps Generatie van Hoog-esthetische Video's

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

January 9, 2024
Auteurs: Weimin Wang, Jiawei Liu, Zhijie Lin, Jiangqiao Yan, Shuo Chen, Chetwin Low, Tuyen Hoang, Jie Wu, Jun Hao Liew, Hanshu Yan, Daquan Zhou, Jiashi Feng
cs.AI

Samenvatting

De groeiende vraag naar hoogwaardige videogeneratie op basis van tekstuele beschrijvingen heeft aanzienlijk onderzoek op dit gebied gestimuleerd. In dit werk introduceren we MagicVideo-V2, dat het tekst-naar-beeldmodel, de videobewegingsgenerator, de referentiebeeldembeddingmodule en de frame-interpolatiemodule integreert in een end-to-end videogeneratiepijplijn. Dankzij deze architectuurontwerpen kan MagicVideo-V2 esthetisch aantrekkelijke, hoogwaardige video's genereren met opmerkelijke nauwkeurigheid en vloeiendheid. Het toont superieure prestaties ten opzichte van toonaangevende Tekst-naar-Video-systemen zoals Runway, Pika 1.0, Morph, Moon Valley en het Stable Video Diffusion-model via grootschalige gebruikersevaluaties.
English
The growing demand for high-fidelity video generation from textual descriptions has catalyzed significant research in this field. In this work, we introduce MagicVideo-V2 that integrates the text-to-image model, video motion generator, reference image embedding module and frame interpolation module into an end-to-end video generation pipeline. Benefiting from these architecture designs, MagicVideo-V2 can generate an aesthetically pleasing, high-resolution video with remarkable fidelity and smoothness. It demonstrates superior performance over leading Text-to-Video systems such as Runway, Pika 1.0, Morph, Moon Valley and Stable Video Diffusion model via user evaluation at large scale.
PDF496December 15, 2024