Show-1: Combinando Modelos de Difusión de Píxeles y Latentes para la Generación de Texto a Video
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation
September 27, 2023
Autores: David Junhao Zhang, Jay Zhangjie Wu, Jia-Wei Liu, Rui Zhao, Lingmin Ran, Yuchao Gu, Difei Gao, Mike Zheng Shou
cs.AI
Resumen
Se han logrado avances significativos en el ámbito de los modelos de difusión de texto a vídeo preentrenados a gran escala (VDMs, por sus siglas en inglés). Sin embargo, los métodos anteriores se basan únicamente en VDMs basados en píxeles, que conllevan altos costos computacionales, o en VDMs basados en latentes, que a menudo tienen dificultades para lograr una alineación precisa entre el texto y el vídeo. En este artículo, somos los primeros en proponer un modelo híbrido, denominado Show-1, que combina VDMs basados en píxeles y latentes para la generación de vídeos a partir de texto. Nuestro modelo utiliza primero VDMs basados en píxeles para producir un vídeo de baja resolución con una fuerte correlación entre el texto y el vídeo. Posteriormente, proponemos un novedoso método de traducción experta que emplea VDMs basados en latentes para aumentar aún más la resolución del vídeo de baja resolución a alta resolución. En comparación con los VDMs latentes, Show-1 puede producir vídeos de alta calidad con una alineación precisa entre el texto y el vídeo; en comparación con los VDMs basados en píxeles, Show-1 es mucho más eficiente (el uso de memoria GPU durante la inferencia es de 15G frente a 72G). También validamos nuestro modelo en benchmarks estándar de generación de vídeos. Nuestro código y los pesos del modelo están disponibles públicamente en https://github.com/showlab/Show-1.
English
Significant advancements have been achieved in the realm of large-scale
pre-trained text-to-video Diffusion Models (VDMs). However, previous methods
either rely solely on pixel-based VDMs, which come with high computational
costs, or on latent-based VDMs, which often struggle with precise text-video
alignment. In this paper, we are the first to propose a hybrid model, dubbed as
Show-1, which marries pixel-based and latent-based VDMs for text-to-video
generation. Our model first uses pixel-based VDMs to produce a low-resolution
video of strong text-video correlation. After that, we propose a novel expert
translation method that employs the latent-based VDMs to further upsample the
low-resolution video to high resolution. Compared to latent VDMs, Show-1 can
produce high-quality videos of precise text-video alignment; Compared to pixel
VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G
vs 72G). We also validate our model on standard video generation benchmarks.
Our code and model weights are publicly available at
https://github.com/showlab/Show-1.