ChatPaper.aiChatPaper

LAVIE: Generazione di Video di Alta Qualità con Modelli di Diffusione Latente a Cascata

LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

September 26, 2023
Autori: Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI

Abstract

Questo lavoro mira a apprendere un modello generativo di testo-video (T2V) di alta qualità sfruttando un modello pre-addestrato di testo-immagine (T2I) come base. Si tratta di un compito altamente desiderabile ma impegnativo, poiché richiede di a) realizzare la sintesi di video visivamente realistici e temporalmente coerenti, mentre b) preserva la forte natura creativa di generazione del modello T2I pre-addestrato. A tal fine, proponiamo LaVie, un framework integrato di generazione video che opera su modelli di diffusione latente video a cascata, comprendendo un modello T2V di base, un modello di interpolazione temporale e un modello di super-risoluzione video. Le nostre intuizioni chiave sono due: 1) Riveliamo che l'incorporazione di semplici auto-attenzioni temporali, accoppiate con la codifica posizionale rotativa, cattura adeguatamente le correlazioni temporali intrinseche nei dati video. 2) Inoltre, validiamo che il processo di fine-tuning congiunto immagine-video svolge un ruolo fondamentale nel produrre risultati di alta qualità e creativi. Per migliorare le prestazioni di LaVie, contribuiamo con un dataset video completo e diversificato denominato Vimeo25M, composto da 25 milioni di coppie testo-video che privilegiano qualità, diversità e attrattiva estetica. Esperimenti estensivi dimostrano che LaVie raggiunge prestazioni all'avanguardia sia quantitativamente che qualitativamente. Inoltre, mostriamo la versatilità dei modelli LaVie pre-addestrati in varie applicazioni di generazione di video lunghi e sintesi video personalizzata.
English
This work aims to learn a high-quality text-to-video (T2V) generative model by leveraging a pre-trained text-to-image (T2I) model as a basis. It is a highly desirable yet challenging task to simultaneously a) accomplish the synthesis of visually realistic and temporally coherent videos while b) preserving the strong creative generation nature of the pre-trained T2I model. To this end, we propose LaVie, an integrated video generation framework that operates on cascaded video latent diffusion models, comprising a base T2V model, a temporal interpolation model, and a video super-resolution model. Our key insights are two-fold: 1) We reveal that the incorporation of simple temporal self-attentions, coupled with rotary positional encoding, adequately captures the temporal correlations inherent in video data. 2) Additionally, we validate that the process of joint image-video fine-tuning plays a pivotal role in producing high-quality and creative outcomes. To enhance the performance of LaVie, we contribute a comprehensive and diverse video dataset named Vimeo25M, consisting of 25 million text-video pairs that prioritize quality, diversity, and aesthetic appeal. Extensive experiments demonstrate that LaVie achieves state-of-the-art performance both quantitatively and qualitatively. Furthermore, we showcase the versatility of pre-trained LaVie models in various long video generation and personalized video synthesis applications.
PDF423December 15, 2024