MagicVideo-V2: Generazione Video Multi-Stage ad Alta Estetica

Abstract

La crescente domanda di generazione di video ad alta fedeltà a partire da descrizioni testuali ha catalizzato una significativa ricerca in questo campo. In questo lavoro, presentiamo MagicVideo-V2, che integra il modello di generazione di immagini da testo, il generatore di movimento video, il modulo di incorporamento di immagini di riferimento e il modulo di interpolazione dei fotogrammi in una pipeline end-to-end per la generazione di video. Grazie a queste scelte architetturali, MagicVideo-V2 è in grado di generare video esteticamente piacevoli, ad alta risoluzione, con una fedeltà e una fluidità notevoli. Dimostra prestazioni superiori rispetto ai principali sistemi di generazione di video da testo, come Runway, Pika 1.0, Morph, Moon Valley e il modello Stable Video Diffusion, attraverso valutazioni su larga scala da parte degli utenti.

English

The growing demand for high-fidelity video generation from textual descriptions has catalyzed significant research in this field. In this work, we introduce MagicVideo-V2 that integrates the text-to-image model, video motion generator, reference image embedding module and frame interpolation module into an end-to-end video generation pipeline. Benefiting from these architecture designs, MagicVideo-V2 can generate an aesthetically pleasing, high-resolution video with remarkable fidelity and smoothness. It demonstrates superior performance over leading Text-to-Video systems such as Runway, Pika 1.0, Morph, Moon Valley and Stable Video Diffusion model via user evaluation at large scale.

MagicVideo-V2: Generazione Video Multi-Stage ad Alta Estetica

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

Abstract

Support