Show-1: Unione tra Modelli di Diffusione su Pixel e Latenti per la Generazione di Video da Testo

Abstract

Sono stati compiuti significativi progressi nel campo dei modelli di diffusione testo-video pre-addestrati su larga scala (VDM). Tuttavia, i metodi precedenti si basano esclusivamente su VDM basati su pixel, che comportano elevati costi computazionali, o su VDM basati su rappresentazioni latenti, che spesso faticano a garantire un allineamento preciso tra testo e video. In questo articolo, siamo i primi a proporre un modello ibrido, denominato Show-1, che combina VDM basati su pixel e su rappresentazioni latenti per la generazione di video da testo. Il nostro modello utilizza inizialmente VDM basati su pixel per produrre un video a bassa risoluzione con una forte correlazione testo-video. Successivamente, proponiamo un innovativo metodo di traduzione esperta che impiega VDM basati su rappresentazioni latenti per aumentare ulteriormente la risoluzione del video da bassa ad alta. Rispetto ai VDM latenti, Show-1 è in grado di produrre video di alta qualità con un allineamento testo-video preciso; rispetto ai VDM basati su pixel, Show-1 è molto più efficiente (l'utilizzo della memoria GPU durante l'inferenza è di 15G rispetto a 72G). Validiamo inoltre il nostro modello su benchmark standard per la generazione di video. Il nostro codice e i pesi del modello sono disponibili pubblicamente all'indirizzo https://github.com/showlab/Show-1.

English

Significant advancements have been achieved in the realm of large-scale pre-trained text-to-video Diffusion Models (VDMs). However, previous methods either rely solely on pixel-based VDMs, which come with high computational costs, or on latent-based VDMs, which often struggle with precise text-video alignment. In this paper, we are the first to propose a hybrid model, dubbed as Show-1, which marries pixel-based and latent-based VDMs for text-to-video generation. Our model first uses pixel-based VDMs to produce a low-resolution video of strong text-video correlation. After that, we propose a novel expert translation method that employs the latent-based VDMs to further upsample the low-resolution video to high resolution. Compared to latent VDMs, Show-1 can produce high-quality videos of precise text-video alignment; Compared to pixel VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G vs 72G). We also validate our model on standard video generation benchmarks. Our code and model weights are publicly available at https://github.com/showlab/Show-1.

Show-1: Unione tra Modelli di Diffusione su Pixel e Latenti per la Generazione di Video da Testo

Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation

Abstract

Support