ChatPaper.aiChatPaper

MagicVideo-V2: Generazione Video Multi-Stage ad Alta Estetica

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

January 9, 2024
Autori: Weimin Wang, Jiawei Liu, Zhijie Lin, Jiangqiao Yan, Shuo Chen, Chetwin Low, Tuyen Hoang, Jie Wu, Jun Hao Liew, Hanshu Yan, Daquan Zhou, Jiashi Feng
cs.AI

Abstract

La crescente domanda di generazione di video ad alta fedeltà a partire da descrizioni testuali ha catalizzato una significativa ricerca in questo campo. In questo lavoro, presentiamo MagicVideo-V2, che integra il modello di generazione di immagini da testo, il generatore di movimento video, il modulo di incorporamento di immagini di riferimento e il modulo di interpolazione dei fotogrammi in una pipeline end-to-end per la generazione di video. Grazie a queste scelte architetturali, MagicVideo-V2 è in grado di generare video esteticamente piacevoli, ad alta risoluzione, con una fedeltà e una fluidità notevoli. Dimostra prestazioni superiori rispetto ai principali sistemi di generazione di video da testo, come Runway, Pika 1.0, Morph, Moon Valley e il modello Stable Video Diffusion, attraverso valutazioni su larga scala da parte degli utenti.
English
The growing demand for high-fidelity video generation from textual descriptions has catalyzed significant research in this field. In this work, we introduce MagicVideo-V2 that integrates the text-to-image model, video motion generator, reference image embedding module and frame interpolation module into an end-to-end video generation pipeline. Benefiting from these architecture designs, MagicVideo-V2 can generate an aesthetically pleasing, high-resolution video with remarkable fidelity and smoothness. It demonstrates superior performance over leading Text-to-Video systems such as Runway, Pika 1.0, Morph, Moon Valley and Stable Video Diffusion model via user evaluation at large scale.
PDF496December 15, 2024