Show-1: Die Verbindung von Pixel- und Latent-Diffusionsmodellen für die Text-zu-Video-Generierung
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation
September 27, 2023
Autoren: David Junhao Zhang, Jay Zhangjie Wu, Jia-Wei Liu, Rui Zhao, Lingmin Ran, Yuchao Gu, Difei Gao, Mike Zheng Shou
cs.AI
Zusammenfassung
Erhebliche Fortschritte wurden im Bereich großskaliger vortrainierter Text-zu-Video-Diffusionsmodelle (VDMs) erzielt. Bisherige Methoden stützen sich jedoch entweder ausschließlich auf pixelbasierte VDMs, die mit hohen Rechenkosten verbunden sind, oder auf latente VDMs, die oft Schwierigkeiten mit der präzisen Text-Video-Ausrichtung haben. In diesem Artikel schlagen wir erstmals ein hybrides Modell vor, das als Show-1 bezeichnet wird und pixelbasierte mit latenten VDMs für die Text-zu-Video-Generierung kombiniert. Unser Modell verwendet zunächst pixelbasierte VDMs, um ein niedrigauflösendes Video mit starker Text-Video-Korrelation zu erzeugen. Anschließend schlagen wir eine neuartige Expertentranslationsmethode vor, die latente VDMs einsetzt, um das niedrigauflösende Video weiter in hohe Auflösung zu skalieren. Im Vergleich zu latenten VDMs kann Show-1 hochwertige Videos mit präziser Text-Video-Ausrichtung erzeugen; im Vergleich zu pixelbasierten VDMs ist Show-1 wesentlich effizienter (der GPU-Speicherverbrauch während der Inferenz beträgt 15G gegenüber 72G). Wir validieren unser Modell auch anhand standardisierter Benchmarks für die Videogenerierung. Unser Code und unsere Modellgewichte sind öffentlich unter https://github.com/showlab/Show-1 verfügbar.
English
Significant advancements have been achieved in the realm of large-scale
pre-trained text-to-video Diffusion Models (VDMs). However, previous methods
either rely solely on pixel-based VDMs, which come with high computational
costs, or on latent-based VDMs, which often struggle with precise text-video
alignment. In this paper, we are the first to propose a hybrid model, dubbed as
Show-1, which marries pixel-based and latent-based VDMs for text-to-video
generation. Our model first uses pixel-based VDMs to produce a low-resolution
video of strong text-video correlation. After that, we propose a novel expert
translation method that employs the latent-based VDMs to further upsample the
low-resolution video to high resolution. Compared to latent VDMs, Show-1 can
produce high-quality videos of precise text-video alignment; Compared to pixel
VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G
vs 72G). We also validate our model on standard video generation benchmarks.
Our code and model weights are publicly available at
https://github.com/showlab/Show-1.