ChatPaper.aiChatPaper

Show-1: Die Verbindung von Pixel- und Latent-Diffusionsmodellen für die Text-zu-Video-Generierung

Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation

September 27, 2023
Autoren: David Junhao Zhang, Jay Zhangjie Wu, Jia-Wei Liu, Rui Zhao, Lingmin Ran, Yuchao Gu, Difei Gao, Mike Zheng Shou
cs.AI

Zusammenfassung

Erhebliche Fortschritte wurden im Bereich großskaliger vortrainierter Text-zu-Video-Diffusionsmodelle (VDMs) erzielt. Bisherige Methoden stützen sich jedoch entweder ausschließlich auf pixelbasierte VDMs, die mit hohen Rechenkosten verbunden sind, oder auf latente VDMs, die oft Schwierigkeiten mit der präzisen Text-Video-Ausrichtung haben. In diesem Artikel schlagen wir erstmals ein hybrides Modell vor, das als Show-1 bezeichnet wird und pixelbasierte mit latenten VDMs für die Text-zu-Video-Generierung kombiniert. Unser Modell verwendet zunächst pixelbasierte VDMs, um ein niedrigauflösendes Video mit starker Text-Video-Korrelation zu erzeugen. Anschließend schlagen wir eine neuartige Expertentranslationsmethode vor, die latente VDMs einsetzt, um das niedrigauflösende Video weiter in hohe Auflösung zu skalieren. Im Vergleich zu latenten VDMs kann Show-1 hochwertige Videos mit präziser Text-Video-Ausrichtung erzeugen; im Vergleich zu pixelbasierten VDMs ist Show-1 wesentlich effizienter (der GPU-Speicherverbrauch während der Inferenz beträgt 15G gegenüber 72G). Wir validieren unser Modell auch anhand standardisierter Benchmarks für die Videogenerierung. Unser Code und unsere Modellgewichte sind öffentlich unter https://github.com/showlab/Show-1 verfügbar.
English
Significant advancements have been achieved in the realm of large-scale pre-trained text-to-video Diffusion Models (VDMs). However, previous methods either rely solely on pixel-based VDMs, which come with high computational costs, or on latent-based VDMs, which often struggle with precise text-video alignment. In this paper, we are the first to propose a hybrid model, dubbed as Show-1, which marries pixel-based and latent-based VDMs for text-to-video generation. Our model first uses pixel-based VDMs to produce a low-resolution video of strong text-video correlation. After that, we propose a novel expert translation method that employs the latent-based VDMs to further upsample the low-resolution video to high resolution. Compared to latent VDMs, Show-1 can produce high-quality videos of precise text-video alignment; Compared to pixel VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G vs 72G). We also validate our model on standard video generation benchmarks. Our code and model weights are publicly available at https://github.com/showlab/Show-1.
PDF184December 15, 2024