LAVIE: Geração de Vídeos de Alta Qualidade com Modelos de Difusão Latente em Cascata
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models
September 26, 2023
Autores: Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI
Resumo
Este trabalho tem como objetivo aprender um modelo generativo de texto-para-vídeo (T2V) de alta qualidade, aproveitando um modelo pré-treinado de texto-para-imagem (T2I) como base. É uma tarefa altamente desejável, porém desafiadora, simultaneamente a) realizar a síntese de vídeos visualmente realistas e temporalmente coerentes, enquanto b) preserva a forte natureza criativa de geração do modelo T2I pré-treinado. Para isso, propomos o LaVie, um framework integrado de geração de vídeo que opera em modelos de difusão latente de vídeo em cascata, compreendendo um modelo base T2V, um modelo de interpolação temporal e um modelo de super-resolução de vídeo. Nossas principais percepções são duas: 1) Revelamos que a incorporação de auto-atenções temporais simples, juntamente com codificação posicional rotativa, captura adequadamente as correlações temporais inerentes aos dados de vídeo. 2) Além disso, validamos que o processo de ajuste fino conjunto de imagem-vídeo desempenha um papel fundamental na produção de resultados de alta qualidade e criativos. Para aprimorar o desempenho do LaVie, contribuímos com um conjunto de dados de vídeo abrangente e diversificado chamado Vimeo25M, composto por 25 milhões de pares texto-vídeo que priorizam qualidade, diversidade e apelo estético. Experimentos extensivos demonstram que o LaVie alcança desempenho de ponta tanto quantitativa quanto qualitativamente. Além disso, mostramos a versatilidade dos modelos LaVie pré-treinados em várias aplicações de geração de vídeos longos e síntese de vídeos personalizados.
English
This work aims to learn a high-quality text-to-video (T2V) generative model
by leveraging a pre-trained text-to-image (T2I) model as a basis. It is a
highly desirable yet challenging task to simultaneously a) accomplish the
synthesis of visually realistic and temporally coherent videos while b)
preserving the strong creative generation nature of the pre-trained T2I model.
To this end, we propose LaVie, an integrated video generation framework that
operates on cascaded video latent diffusion models, comprising a base T2V
model, a temporal interpolation model, and a video super-resolution model. Our
key insights are two-fold: 1) We reveal that the incorporation of simple
temporal self-attentions, coupled with rotary positional encoding, adequately
captures the temporal correlations inherent in video data. 2) Additionally, we
validate that the process of joint image-video fine-tuning plays a pivotal role
in producing high-quality and creative outcomes. To enhance the performance of
LaVie, we contribute a comprehensive and diverse video dataset named Vimeo25M,
consisting of 25 million text-video pairs that prioritize quality, diversity,
and aesthetic appeal. Extensive experiments demonstrate that LaVie achieves
state-of-the-art performance both quantitatively and qualitatively.
Furthermore, we showcase the versatility of pre-trained LaVie models in various
long video generation and personalized video synthesis applications.