Show-1: Объединение пиксельных и латентных моделей диффузии для генерации видео из текста
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation
September 27, 2023
Авторы: David Junhao Zhang, Jay Zhangjie Wu, Jia-Wei Liu, Rui Zhao, Lingmin Ran, Yuchao Gu, Difei Gao, Mike Zheng Shou
cs.AI
Аннотация
Значительные достижения были сделаны в области крупномасштабных предобученных моделей диффузии для генерации видео из текста (VDMs). Однако предыдущие методы либо полагаются исключительно на пиксельные VDMs, которые связаны с высокими вычислительными затратами, либо на латентные VDMs, которые часто испытывают трудности с точным соответствием текста и видео. В данной работе мы впервые предлагаем гибридную модель, названную Show-1, которая объединяет пиксельные и латентные VDMs для генерации видео из текста. Наша модель сначала использует пиксельные VDMs для создания видео низкого разрешения с сильной корреляцией между текстом и видео. После этого мы предлагаем новый метод экспертного преобразования, который использует латентные VDMs для дальнейшего повышения разрешения видео до высокого. По сравнению с латентными VDMs, Show-1 способна создавать высококачественные видео с точным соответствием текста и видео; по сравнению с пиксельными VDMs, Show-1 значительно более эффективна (использование памяти GPU во время вывода составляет 15 ГБ против 72 ГБ). Мы также проверяем нашу модель на стандартных бенчмарках для генерации видео. Наш код и веса модели доступны публично по адресу https://github.com/showlab/Show-1.
English
Significant advancements have been achieved in the realm of large-scale
pre-trained text-to-video Diffusion Models (VDMs). However, previous methods
either rely solely on pixel-based VDMs, which come with high computational
costs, or on latent-based VDMs, which often struggle with precise text-video
alignment. In this paper, we are the first to propose a hybrid model, dubbed as
Show-1, which marries pixel-based and latent-based VDMs for text-to-video
generation. Our model first uses pixel-based VDMs to produce a low-resolution
video of strong text-video correlation. After that, we propose a novel expert
translation method that employs the latent-based VDMs to further upsample the
low-resolution video to high resolution. Compared to latent VDMs, Show-1 can
produce high-quality videos of precise text-video alignment; Compared to pixel
VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G
vs 72G). We also validate our model on standard video generation benchmarks.
Our code and model weights are publicly available at
https://github.com/showlab/Show-1.