Show-1 : Alliance des modèles de diffusion sur pixels et latents pour la génération de vidéos à partir de texte
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation
September 27, 2023
Auteurs: David Junhao Zhang, Jay Zhangjie Wu, Jia-Wei Liu, Rui Zhao, Lingmin Ran, Yuchao Gu, Difei Gao, Mike Zheng Shou
cs.AI
Résumé
Des avancées significatives ont été réalisées dans le domaine des modèles de diffusion texte-vidéo pré-entraînés à grande échelle (VDMs). Cependant, les méthodes précédentes reposent soit uniquement sur des VDMs basés sur les pixels, qui entraînent des coûts de calcul élevés, soit sur des VDMs basés sur des représentations latentes, qui peinent souvent à aligner précisément le texte et la vidéo. Dans cet article, nous sommes les premiers à proposer un modèle hybride, baptisé Show-1, qui combine des VDMs basés sur les pixels et des VDMs basés sur des représentations latentes pour la génération de vidéos à partir de texte. Notre modèle utilise d'abord des VDMs basés sur les pixels pour produire une vidéo de faible résolution avec une forte corrélation texte-vidéo. Ensuite, nous proposons une nouvelle méthode de traduction experte qui emploie des VDMs basés sur des représentations latentes pour suréchantillonner la vidéo de faible résolution en haute résolution. Par rapport aux VDMs latents, Show-1 peut produire des vidéos de haute qualité avec un alignement texte-vidéo précis ; par rapport aux VDMs basés sur les pixels, Show-1 est beaucoup plus efficace (l'utilisation de mémoire GPU lors de l'inférence est de 15 Go contre 72 Go). Nous validons également notre modèle sur des benchmarks standard de génération de vidéos. Notre code et les poids du modèle sont disponibles publiquement à l'adresse https://github.com/showlab/Show-1.
English
Significant advancements have been achieved in the realm of large-scale
pre-trained text-to-video Diffusion Models (VDMs). However, previous methods
either rely solely on pixel-based VDMs, which come with high computational
costs, or on latent-based VDMs, which often struggle with precise text-video
alignment. In this paper, we are the first to propose a hybrid model, dubbed as
Show-1, which marries pixel-based and latent-based VDMs for text-to-video
generation. Our model first uses pixel-based VDMs to produce a low-resolution
video of strong text-video correlation. After that, we propose a novel expert
translation method that employs the latent-based VDMs to further upsample the
low-resolution video to high resolution. Compared to latent VDMs, Show-1 can
produce high-quality videos of precise text-video alignment; Compared to pixel
VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G
vs 72G). We also validate our model on standard video generation benchmarks.
Our code and model weights are publicly available at
https://github.com/showlab/Show-1.