Show-1: テキストからビデオ生成のためのピクセル拡散モデルと潜在拡散モデルの融合
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation
September 27, 2023
著者: David Junhao Zhang, Jay Zhangjie Wu, Jia-Wei Liu, Rui Zhao, Lingmin Ran, Yuchao Gu, Difei Gao, Mike Zheng Shou
cs.AI
要旨
大規模な事前学習済みテキスト-to-ビデオ拡散モデル(VDMs)の分野において、重要な進展が達成されてきました。しかし、従来の手法は、計算コストが高いピクセルベースのVDMsに依存するか、あるいはテキストとビデオの正確なアラインメントに苦戦する潜在ベースのVDMsに依存していました。本論文では、初めてピクセルベースと潜在ベースのVDMsを融合させたハイブリッドモデル「Show-1」を提案します。本モデルは、まずピクセルベースのVDMsを使用して、強力なテキスト-ビデオ相関を持つ低解像度のビデオを生成します。その後、潜在ベースのVDMsを用いた新しいエキスパート翻訳手法を提案し、低解像度のビデオを高解像度にアップサンプリングします。潜在VDMsと比較して、Show-1はテキストとビデオの正確なアラインメントを実現した高品質なビデオを生成できます。また、ピクセルVDMsと比較して、Show-1ははるかに効率的です(推論時のGPUメモリ使用量は15G対72G)。さらに、標準的なビデオ生成ベンチマークで本モデルを検証しました。本モデルのコードと重みは、https://github.com/showlab/Show-1 で公開されています。
English
Significant advancements have been achieved in the realm of large-scale
pre-trained text-to-video Diffusion Models (VDMs). However, previous methods
either rely solely on pixel-based VDMs, which come with high computational
costs, or on latent-based VDMs, which often struggle with precise text-video
alignment. In this paper, we are the first to propose a hybrid model, dubbed as
Show-1, which marries pixel-based and latent-based VDMs for text-to-video
generation. Our model first uses pixel-based VDMs to produce a low-resolution
video of strong text-video correlation. After that, we propose a novel expert
translation method that employs the latent-based VDMs to further upsample the
low-resolution video to high resolution. Compared to latent VDMs, Show-1 can
produce high-quality videos of precise text-video alignment; Compared to pixel
VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G
vs 72G). We also validate our model on standard video generation benchmarks.
Our code and model weights are publicly available at
https://github.com/showlab/Show-1.