Show-1: Het combineren van pixel- en latent diffusion-modellen voor tekst-naar-video-generatie

Samenvatting

Er zijn aanzienlijke vooruitgangen geboekt op het gebied van grootschalige, vooraf getrainde tekst-naar-video Diffusion Models (VDMs). Eerdere methoden vertrouwen echter uitsluitend op pixelgebaseerde VDMs, die gepaard gaan met hoge rekenkosten, of op latent-gebaseerde VDMs, die vaak moeite hebben met een precieze tekst-video-afstemming. In dit artikel introduceren wij als eerste een hybride model, genaamd Show-1, dat pixelgebaseerde en latent-gebaseerde VDMs combineert voor tekst-naar-video-generatie. Ons model gebruikt eerst pixelgebaseerde VDMs om een video met lage resolutie te produceren die een sterke tekst-video-correlatie vertoont. Vervolgens stellen wij een nieuwe expertvertaal-methode voor die latent-gebaseerde VDMs inzet om de video met lage resolutie verder op te schalen naar hoge resolutie. In vergelijking met latent VDMs kan Show-1 hoogwaardige video's produceren met een precieze tekst-video-afstemming; in vergelijking met pixel VDMs is Show-1 veel efficiënter (het GPU-geheugengebruik tijdens inferentie is 15G versus 72G). Wij valideren ons model ook op standaard benchmarks voor videogeneratie. Onze code en modelgewichten zijn openbaar beschikbaar op https://github.com/showlab/Show-1.

English

Significant advancements have been achieved in the realm of large-scale pre-trained text-to-video Diffusion Models (VDMs). However, previous methods either rely solely on pixel-based VDMs, which come with high computational costs, or on latent-based VDMs, which often struggle with precise text-video alignment. In this paper, we are the first to propose a hybrid model, dubbed as Show-1, which marries pixel-based and latent-based VDMs for text-to-video generation. Our model first uses pixel-based VDMs to produce a low-resolution video of strong text-video correlation. After that, we propose a novel expert translation method that employs the latent-based VDMs to further upsample the low-resolution video to high resolution. Compared to latent VDMs, Show-1 can produce high-quality videos of precise text-video alignment; Compared to pixel VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G vs 72G). We also validate our model on standard video generation benchmarks. Our code and model weights are publicly available at https://github.com/showlab/Show-1.

Show-1: Het combineren van pixel- en latent diffusion-modellen voor tekst-naar-video-generatie

Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation

Samenvatting

Support