VideoGen : Une approche de diffusion latente guidée par référence pour la génération de vidéos haute définition à partir de texte
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation
September 1, 2023
Auteurs: Xin Li, Wenqing Chu, Ye Wu, Weihang Yuan, Fanglong Liu, Qi Zhang, Fu Li, Haocheng Feng, Errui Ding, Jingdong Wang
cs.AI
Résumé
Dans cet article, nous présentons VideoGen, une approche de génération de texte-à-vidéo capable de produire une vidéo haute définition avec une fidélité d'image élevée et une forte cohérence temporelle grâce à une diffusion latente guidée par référence. Nous exploitons un modèle de génération d'images à partir de texte prêt à l'emploi, tel que Stable Diffusion, pour générer une image de haute qualité à partir d'une invite textuelle, utilisée comme image de référence pour guider la génération de la vidéo. Ensuite, nous introduisons un module efficace de diffusion latente en cascade conditionné à la fois par l'image de référence et l'invite textuelle, pour générer des représentations vidéo latentes, suivies d'une étape de suréchantillonnage temporel basée sur le flux afin d'améliorer la résolution temporelle. Enfin, nous transformons les représentations vidéo latentes en une vidéo haute définition grâce à un décodeur vidéo amélioré. Pendant l'entraînement, nous utilisons la première image d'une vidéo de référence comme image de référence pour entraîner le module de diffusion latente en cascade. Les principales caractéristiques de notre approche incluent : l'image de référence générée par le modèle texte-à-image améliore la fidélité visuelle ; son utilisation comme condition permet au modèle de diffusion de se concentrer davantage sur l'apprentissage de la dynamique vidéo ; et le décodeur vidéo est entraîné sur des données vidéo non étiquetées, bénéficiant ainsi de vidéos de haute qualité facilement accessibles. VideoGen établit un nouvel état de l'art en génération texte-à-vidéo, tant en termes d'évaluation qualitative que quantitative.
English
In this paper, we present VideoGen, a text-to-video generation approach,
which can generate a high-definition video with high frame fidelity and strong
temporal consistency using reference-guided latent diffusion. We leverage an
off-the-shelf text-to-image generation model, e.g., Stable Diffusion, to
generate an image with high content quality from the text prompt, as a
reference image to guide video generation. Then, we introduce an efficient
cascaded latent diffusion module conditioned on both the reference image and
the text prompt, for generating latent video representations, followed by a
flow-based temporal upsampling step to improve the temporal resolution.
Finally, we map latent video representations into a high-definition video
through an enhanced video decoder. During training, we use the first frame of a
ground-truth video as the reference image for training the cascaded latent
diffusion module. The main characterises of our approach include: the reference
image generated by the text-to-image model improves the visual fidelity; using
it as the condition makes the diffusion model focus more on learning the video
dynamics; and the video decoder is trained over unlabeled video data, thus
benefiting from high-quality easily-available videos. VideoGen sets a new
state-of-the-art in text-to-video generation in terms of both qualitative and
quantitative evaluation.