LAVIE: Generazione di Video di Alta Qualità con Modelli di Diffusione Latente a Cascata

Abstract

Questo lavoro mira a apprendere un modello generativo di testo-video (T2V) di alta qualità sfruttando un modello pre-addestrato di testo-immagine (T2I) come base. Si tratta di un compito altamente desiderabile ma impegnativo, poiché richiede di a) realizzare la sintesi di video visivamente realistici e temporalmente coerenti, mentre b) preserva la forte natura creativa di generazione del modello T2I pre-addestrato. A tal fine, proponiamo LaVie, un framework integrato di generazione video che opera su modelli di diffusione latente video a cascata, comprendendo un modello T2V di base, un modello di interpolazione temporale e un modello di super-risoluzione video. Le nostre intuizioni chiave sono due: 1) Riveliamo che l'incorporazione di semplici auto-attenzioni temporali, accoppiate con la codifica posizionale rotativa, cattura adeguatamente le correlazioni temporali intrinseche nei dati video. 2) Inoltre, validiamo che il processo di fine-tuning congiunto immagine-video svolge un ruolo fondamentale nel produrre risultati di alta qualità e creativi. Per migliorare le prestazioni di LaVie, contribuiamo con un dataset video completo e diversificato denominato Vimeo25M, composto da 25 milioni di coppie testo-video che privilegiano qualità, diversità e attrattiva estetica. Esperimenti estensivi dimostrano che LaVie raggiunge prestazioni all'avanguardia sia quantitativamente che qualitativamente. Inoltre, mostriamo la versatilità dei modelli LaVie pre-addestrati in varie applicazioni di generazione di video lunghi e sintesi video personalizzata.

English

This work aims to learn a high-quality text-to-video (T2V) generative model by leveraging a pre-trained text-to-image (T2I) model as a basis. It is a highly desirable yet challenging task to simultaneously a) accomplish the synthesis of visually realistic and temporally coherent videos while b) preserving the strong creative generation nature of the pre-trained T2I model. To this end, we propose LaVie, an integrated video generation framework that operates on cascaded video latent diffusion models, comprising a base T2V model, a temporal interpolation model, and a video super-resolution model. Our key insights are two-fold: 1) We reveal that the incorporation of simple temporal self-attentions, coupled with rotary positional encoding, adequately captures the temporal correlations inherent in video data. 2) Additionally, we validate that the process of joint image-video fine-tuning plays a pivotal role in producing high-quality and creative outcomes. To enhance the performance of LaVie, we contribute a comprehensive and diverse video dataset named Vimeo25M, consisting of 25 million text-video pairs that prioritize quality, diversity, and aesthetic appeal. Extensive experiments demonstrate that LaVie achieves state-of-the-art performance both quantitatively and qualitatively. Furthermore, we showcase the versatility of pre-trained LaVie models in various long video generation and personalized video synthesis applications.

LAVIE: Generazione di Video di Alta Qualità con Modelli di Diffusione Latente a Cascata

LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

Abstract

Support