LAVIE: Generación de Vídeo de Alta Calidad con Modelos de Difusión Latente en Cascada

Resumen

Este trabajo tiene como objetivo aprender un modelo generativo de texto a video (T2V) de alta calidad aprovechando un modelo preentrenado de texto a imagen (T2I) como base. Es una tarea altamente deseable pero desafiante lograr simultáneamente a) la síntesis de videos visualmente realistas y temporalmente coherentes, mientras b) se preserva la fuerte naturaleza creativa de generación del modelo T2I preentrenado. Con este fin, proponemos LaVie, un marco integrado de generación de video que opera sobre modelos de difusión latente de video en cascada, compuesto por un modelo base T2V, un modelo de interpolación temporal y un modelo de superresolución de video. Nuestras ideas clave son dos: 1) Revelamos que la incorporación de auto-atenciones temporales simples, junto con codificación posicional rotatoria, captura adecuadamente las correlaciones temporales inherentes a los datos de video. 2) Además, validamos que el proceso de ajuste fino conjunto de imagen-video juega un papel fundamental en la producción de resultados de alta calidad y creativos. Para mejorar el rendimiento de LaVie, contribuimos con un conjunto de datos de video completo y diverso llamado Vimeo25M, que consta de 25 millones de pares texto-video que priorizan la calidad, la diversidad y el atractivo estético. Experimentos extensos demuestran que LaVie alcanza un rendimiento de vanguardia tanto cuantitativa como cualitativamente. Además, mostramos la versatilidad de los modelos preentrenados de LaVie en diversas aplicaciones de generación de videos largos y síntesis de videos personalizados.

English

This work aims to learn a high-quality text-to-video (T2V) generative model by leveraging a pre-trained text-to-image (T2I) model as a basis. It is a highly desirable yet challenging task to simultaneously a) accomplish the synthesis of visually realistic and temporally coherent videos while b) preserving the strong creative generation nature of the pre-trained T2I model. To this end, we propose LaVie, an integrated video generation framework that operates on cascaded video latent diffusion models, comprising a base T2V model, a temporal interpolation model, and a video super-resolution model. Our key insights are two-fold: 1) We reveal that the incorporation of simple temporal self-attentions, coupled with rotary positional encoding, adequately captures the temporal correlations inherent in video data. 2) Additionally, we validate that the process of joint image-video fine-tuning plays a pivotal role in producing high-quality and creative outcomes. To enhance the performance of LaVie, we contribute a comprehensive and diverse video dataset named Vimeo25M, consisting of 25 million text-video pairs that prioritize quality, diversity, and aesthetic appeal. Extensive experiments demonstrate that LaVie achieves state-of-the-art performance both quantitatively and qualitatively. Furthermore, we showcase the versatility of pre-trained LaVie models in various long video generation and personalized video synthesis applications.

LAVIE: Generación de Vídeo de Alta Calidad con Modelos de Difusión Latente en Cascada

LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

Resumen

Support