Show-1: Het combineren van pixel- en latent diffusion-modellen voor tekst-naar-video-generatie
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation
September 27, 2023
Auteurs: David Junhao Zhang, Jay Zhangjie Wu, Jia-Wei Liu, Rui Zhao, Lingmin Ran, Yuchao Gu, Difei Gao, Mike Zheng Shou
cs.AI
Samenvatting
Er zijn aanzienlijke vooruitgangen geboekt op het gebied van grootschalige, vooraf getrainde tekst-naar-video Diffusion Models (VDMs). Eerdere methoden vertrouwen echter uitsluitend op pixelgebaseerde VDMs, die gepaard gaan met hoge rekenkosten, of op latent-gebaseerde VDMs, die vaak moeite hebben met een precieze tekst-video-afstemming. In dit artikel introduceren wij als eerste een hybride model, genaamd Show-1, dat pixelgebaseerde en latent-gebaseerde VDMs combineert voor tekst-naar-video-generatie. Ons model gebruikt eerst pixelgebaseerde VDMs om een video met lage resolutie te produceren die een sterke tekst-video-correlatie vertoont. Vervolgens stellen wij een nieuwe expertvertaal-methode voor die latent-gebaseerde VDMs inzet om de video met lage resolutie verder op te schalen naar hoge resolutie. In vergelijking met latent VDMs kan Show-1 hoogwaardige video's produceren met een precieze tekst-video-afstemming; in vergelijking met pixel VDMs is Show-1 veel efficiënter (het GPU-geheugengebruik tijdens inferentie is 15G versus 72G). Wij valideren ons model ook op standaard benchmarks voor videogeneratie. Onze code en modelgewichten zijn openbaar beschikbaar op https://github.com/showlab/Show-1.
English
Significant advancements have been achieved in the realm of large-scale
pre-trained text-to-video Diffusion Models (VDMs). However, previous methods
either rely solely on pixel-based VDMs, which come with high computational
costs, or on latent-based VDMs, which often struggle with precise text-video
alignment. In this paper, we are the first to propose a hybrid model, dubbed as
Show-1, which marries pixel-based and latent-based VDMs for text-to-video
generation. Our model first uses pixel-based VDMs to produce a low-resolution
video of strong text-video correlation. After that, we propose a novel expert
translation method that employs the latent-based VDMs to further upsample the
low-resolution video to high resolution. Compared to latent VDMs, Show-1 can
produce high-quality videos of precise text-video alignment; Compared to pixel
VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G
vs 72G). We also validate our model on standard video generation benchmarks.
Our code and model weights are publicly available at
https://github.com/showlab/Show-1.