効率的なビデオ拡散モデルのためのコンテンツフレーム・モーション潜在分解
Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition
March 21, 2024
著者: Sihyun Yu, Weili Nie, De-An Huang, Boyi Li, Jinwoo Shin, Anima Anandkumar
cs.AI
要旨
ビデオ拡散モデルは最近、生成品質において大きな進歩を遂げていますが、依然として高いメモリと計算リソースを必要とするという制約があります。これは、現在のビデオ拡散モデルが高次元のビデオを直接処理しようとするためです。この問題に対処するため、我々は事前学習済みの画像拡散モデルをビデオ生成に効率的に拡張する新しい手法である、コンテンツ-モーション潜在拡散モデル(CMD)を提案します。具体的には、ビデオをコンテンツフレーム(画像のようなもの)と低次元のモーション潜在表現の組み合わせとして簡潔にエンコードするオートエンコーダを提案します。前者は共通のコンテンツを表し、後者はビデオの基盤となるモーションをそれぞれ表します。コンテンツフレームは事前学習済みの画像拡散モデルをファインチューニングして生成し、モーション潜在表現は新しい軽量な拡散モデルを訓練して生成します。ここでの重要な革新は、事前学習済みの画像拡散モデルを直接利用できるコンパクトな潜在空間の設計であり、これは従来の潜在ビデオ拡散モデルでは実現されていませんでした。これにより、生成品質が大幅に向上し、計算コストが削減されます。例えば、CMDは512×1024の解像度で長さ16のビデオを3.1秒で生成し、従来のアプローチよりも7.7倍高速にサンプリングできます。さらに、CMDはWebVid-10MにおいてFVDスコア212.7を達成し、従来の最先端の292.4よりも27.3%優れています。
English
Video diffusion models have recently made great progress in generation
quality, but are still limited by the high memory and computational
requirements. This is because current video diffusion models often attempt to
process high-dimensional videos directly. To tackle this issue, we propose
content-motion latent diffusion model (CMD), a novel efficient extension of
pretrained image diffusion models for video generation. Specifically, we
propose an autoencoder that succinctly encodes a video as a combination of a
content frame (like an image) and a low-dimensional motion latent
representation. The former represents the common content, and the latter
represents the underlying motion in the video, respectively. We generate the
content frame by fine-tuning a pretrained image diffusion model, and we
generate the motion latent representation by training a new lightweight
diffusion model. A key innovation here is the design of a compact latent space
that can directly utilizes a pretrained image diffusion model, which has not
been done in previous latent video diffusion models. This leads to considerably
better quality generation and reduced computational costs. For instance, CMD
can sample a video 7.7times faster than prior approaches by generating a
video of 512times1024 resolution and length 16 in 3.1 seconds. Moreover, CMD
achieves an FVD score of 212.7 on WebVid-10M, 27.3% better than the previous
state-of-the-art of 292.4.Summary
AI-Generated Summary