VideoGen: Un enfoque de difusión latente guiada por referencia para la generación de video de alta definición a partir de texto

Resumen

En este artículo presentamos VideoGen, un enfoque de generación de texto a video que puede producir un video de alta definición con alta fidelidad de fotogramas y fuerte consistencia temporal mediante difusión latente guiada por referencia. Aprovechamos un modelo de generación de texto a imagen disponible comercialmente, como Stable Diffusion, para generar una imagen de alta calidad de contenido a partir de un texto de entrada, la cual sirve como imagen de referencia para guiar la generación del video. Luego, introducimos un módulo eficiente de difusión latente en cascada condicionado tanto por la imagen de referencia como por el texto de entrada, para generar representaciones latentes de video, seguido de un paso de sobremuestreo temporal basado en flujo para mejorar la resolución temporal. Finalmente, mapeamos las representaciones latentes de video a un video de alta definición mediante un decodificador de video mejorado. Durante el entrenamiento, utilizamos el primer fotograma de un video de referencia como imagen de referencia para entrenar el módulo de difusión latente en cascada. Las principales características de nuestro enfoque incluyen: la imagen de referencia generada por el modelo de texto a imagen mejora la fidelidad visual; usarla como condición hace que el modelo de difusión se enfoque más en aprender la dinámica del video; y el decodificador de video se entrena con datos de video no etiquetados, beneficiándose así de videos de alta calidad fácilmente disponibles. VideoGen establece un nuevo estado del arte en la generación de texto a video tanto en evaluaciones cualitativas como cuantitativas.

English

In this paper, we present VideoGen, a text-to-video generation approach, which can generate a high-definition video with high frame fidelity and strong temporal consistency using reference-guided latent diffusion. We leverage an off-the-shelf text-to-image generation model, e.g., Stable Diffusion, to generate an image with high content quality from the text prompt, as a reference image to guide video generation. Then, we introduce an efficient cascaded latent diffusion module conditioned on both the reference image and the text prompt, for generating latent video representations, followed by a flow-based temporal upsampling step to improve the temporal resolution. Finally, we map latent video representations into a high-definition video through an enhanced video decoder. During training, we use the first frame of a ground-truth video as the reference image for training the cascaded latent diffusion module. The main characterises of our approach include: the reference image generated by the text-to-image model improves the visual fidelity; using it as the condition makes the diffusion model focus more on learning the video dynamics; and the video decoder is trained over unlabeled video data, thus benefiting from high-quality easily-available videos. VideoGen sets a new state-of-the-art in text-to-video generation in terms of both qualitative and quantitative evaluation.

VideoGen: Un enfoque de difusión latente guiada por referencia para la generación de video de alta definición a partir de texto

VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation

Resumen

Support