Show-1: Integrando Modelos de Difusão de Pixels e Latentes para Geração de Texto para Vídeo
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation
September 27, 2023
Autores: David Junhao Zhang, Jay Zhangjie Wu, Jia-Wei Liu, Rui Zhao, Lingmin Ran, Yuchao Gu, Difei Gao, Mike Zheng Shou
cs.AI
Resumo
Avanços significativos foram alcançados no domínio dos modelos de difusão pré-treinados em grande escala para geração de texto-para-vídeo (VDMs). No entanto, métodos anteriores dependem exclusivamente de VDMs baseados em pixels, que possuem altos custos computacionais, ou de VDMs baseados em latentes, que frequentemente enfrentam dificuldades com o alinhamento preciso entre texto e vídeo. Neste artigo, somos os primeiros a propor um modelo híbrido, denominado Show-1, que combina VDMs baseados em pixels e latentes para a geração de texto-para-vídeo. Nosso modelo primeiro utiliza VDMs baseados em pixels para produzir um vídeo de baixa resolução com forte correlação entre texto e vídeo. Em seguida, propomos um novo método de tradução especializada que emprega VDMs baseados em latentes para aprimorar a resolução do vídeo de baixa para alta resolução. Comparado aos VDMs latentes, o Show-1 é capaz de produzir vídeos de alta qualidade com alinhamento preciso entre texto e vídeo; comparado aos VDMs baseados em pixels, o Show-1 é muito mais eficiente (o uso de memória GPU durante a inferência é de 15G versus 72G). Também validamos nosso modelo em benchmarks padrão de geração de vídeo. Nosso código e pesos do modelo estão publicamente disponíveis em https://github.com/showlab/Show-1.
English
Significant advancements have been achieved in the realm of large-scale
pre-trained text-to-video Diffusion Models (VDMs). However, previous methods
either rely solely on pixel-based VDMs, which come with high computational
costs, or on latent-based VDMs, which often struggle with precise text-video
alignment. In this paper, we are the first to propose a hybrid model, dubbed as
Show-1, which marries pixel-based and latent-based VDMs for text-to-video
generation. Our model first uses pixel-based VDMs to produce a low-resolution
video of strong text-video correlation. After that, we propose a novel expert
translation method that employs the latent-based VDMs to further upsample the
low-resolution video to high resolution. Compared to latent VDMs, Show-1 can
produce high-quality videos of precise text-video alignment; Compared to pixel
VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G
vs 72G). We also validate our model on standard video generation benchmarks.
Our code and model weights are publicly available at
https://github.com/showlab/Show-1.