Show-1: Unione tra Modelli di Diffusione su Pixel e Latenti per la Generazione di Video da Testo
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation
September 27, 2023
Autori: David Junhao Zhang, Jay Zhangjie Wu, Jia-Wei Liu, Rui Zhao, Lingmin Ran, Yuchao Gu, Difei Gao, Mike Zheng Shou
cs.AI
Abstract
Sono stati compiuti significativi progressi nel campo dei modelli di diffusione testo-video pre-addestrati su larga scala (VDM). Tuttavia, i metodi precedenti si basano esclusivamente su VDM basati su pixel, che comportano elevati costi computazionali, o su VDM basati su rappresentazioni latenti, che spesso faticano a garantire un allineamento preciso tra testo e video. In questo articolo, siamo i primi a proporre un modello ibrido, denominato Show-1, che combina VDM basati su pixel e su rappresentazioni latenti per la generazione di video da testo. Il nostro modello utilizza inizialmente VDM basati su pixel per produrre un video a bassa risoluzione con una forte correlazione testo-video. Successivamente, proponiamo un innovativo metodo di traduzione esperta che impiega VDM basati su rappresentazioni latenti per aumentare ulteriormente la risoluzione del video da bassa ad alta. Rispetto ai VDM latenti, Show-1 è in grado di produrre video di alta qualità con un allineamento testo-video preciso; rispetto ai VDM basati su pixel, Show-1 è molto più efficiente (l'utilizzo della memoria GPU durante l'inferenza è di 15G rispetto a 72G). Validiamo inoltre il nostro modello su benchmark standard per la generazione di video. Il nostro codice e i pesi del modello sono disponibili pubblicamente all'indirizzo https://github.com/showlab/Show-1.
English
Significant advancements have been achieved in the realm of large-scale
pre-trained text-to-video Diffusion Models (VDMs). However, previous methods
either rely solely on pixel-based VDMs, which come with high computational
costs, or on latent-based VDMs, which often struggle with precise text-video
alignment. In this paper, we are the first to propose a hybrid model, dubbed as
Show-1, which marries pixel-based and latent-based VDMs for text-to-video
generation. Our model first uses pixel-based VDMs to produce a low-resolution
video of strong text-video correlation. After that, we propose a novel expert
translation method that employs the latent-based VDMs to further upsample the
low-resolution video to high resolution. Compared to latent VDMs, Show-1 can
produce high-quality videos of precise text-video alignment; Compared to pixel
VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G
vs 72G). We also validate our model on standard video generation benchmarks.
Our code and model weights are publicly available at
https://github.com/showlab/Show-1.