LAVIE: Generación de Vídeo de Alta Calidad con Modelos de Difusión Latente en Cascada
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models
September 26, 2023
Autores: Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI
Resumen
Este trabajo tiene como objetivo aprender un modelo generativo de texto a video (T2V) de alta calidad aprovechando un modelo preentrenado de texto a imagen (T2I) como base. Es una tarea altamente deseable pero desafiante lograr simultáneamente a) la síntesis de videos visualmente realistas y temporalmente coherentes, mientras b) se preserva la fuerte naturaleza creativa de generación del modelo T2I preentrenado. Con este fin, proponemos LaVie, un marco integrado de generación de video que opera sobre modelos de difusión latente de video en cascada, compuesto por un modelo base T2V, un modelo de interpolación temporal y un modelo de superresolución de video. Nuestras ideas clave son dos: 1) Revelamos que la incorporación de auto-atenciones temporales simples, junto con codificación posicional rotatoria, captura adecuadamente las correlaciones temporales inherentes a los datos de video. 2) Además, validamos que el proceso de ajuste fino conjunto de imagen-video juega un papel fundamental en la producción de resultados de alta calidad y creativos. Para mejorar el rendimiento de LaVie, contribuimos con un conjunto de datos de video completo y diverso llamado Vimeo25M, que consta de 25 millones de pares texto-video que priorizan la calidad, la diversidad y el atractivo estético. Experimentos extensos demuestran que LaVie alcanza un rendimiento de vanguardia tanto cuantitativa como cualitativamente. Además, mostramos la versatilidad de los modelos preentrenados de LaVie en diversas aplicaciones de generación de videos largos y síntesis de videos personalizados.
English
This work aims to learn a high-quality text-to-video (T2V) generative model
by leveraging a pre-trained text-to-image (T2I) model as a basis. It is a
highly desirable yet challenging task to simultaneously a) accomplish the
synthesis of visually realistic and temporally coherent videos while b)
preserving the strong creative generation nature of the pre-trained T2I model.
To this end, we propose LaVie, an integrated video generation framework that
operates on cascaded video latent diffusion models, comprising a base T2V
model, a temporal interpolation model, and a video super-resolution model. Our
key insights are two-fold: 1) We reveal that the incorporation of simple
temporal self-attentions, coupled with rotary positional encoding, adequately
captures the temporal correlations inherent in video data. 2) Additionally, we
validate that the process of joint image-video fine-tuning plays a pivotal role
in producing high-quality and creative outcomes. To enhance the performance of
LaVie, we contribute a comprehensive and diverse video dataset named Vimeo25M,
consisting of 25 million text-video pairs that prioritize quality, diversity,
and aesthetic appeal. Extensive experiments demonstrate that LaVie achieves
state-of-the-art performance both quantitatively and qualitatively.
Furthermore, we showcase the versatility of pre-trained LaVie models in various
long video generation and personalized video synthesis applications.