OD-VAE: 潜在ビデオ拡散モデルの改善のためのオムニ次元ビデオ圧縮器
OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model
September 2, 2024
著者: Liuhan Chen, Zongjian Li, Bin Lin, Bin Zhu, Qian Wang, Shenghai Yuan, Xing Zhou, Xinghua Cheng, Li Yuan
cs.AI
要旨
変分オートエンコーダー(VAE)は、動画を潜在表現に圧縮することで、潜在動画拡散モデル(LVDMs)の重要な前段階となります。同じ再構成品質であれば、VAEが動画のために行う圧縮がより十分であれば、LVDMsはより効率的になります。しかし、ほとんどのLVDMsは2次元画像VAEを使用し、その動画の圧縮は空間次元のみであり、時間次元はしばしば無視されています。動画のためにVAEで時間的な圧縮を行い、より簡潔な潜在表現を得る方法はほとんど探求されていません。このギャップを埋めるために、私たちは全次元圧縮VAEと名付けたOD-VAEを提案します。OD-VAEのより十分な圧縮は、動画の再構成に大きな挑戦をもたらしますが、私たちの細かい設計により高い再構成精度を実現できます。動画の再構成品質と圧縮速度のより良いトレードオフを得るために、OD-VAEの4つのバリアントを導入して分析します。さらに、OD-VAEをより効率的に訓練するための新しいテイル初期化が設計され、限られたGPUメモリで任意の長さの動画を処理できるようにするための新しい推論戦略が提案されています。動画の再構成およびLVDMに基づく動画生成に関する包括的な実験は、私たちの提案手法の有効性と効率性を実証しています。
English
Variational Autoencoder (VAE), compressing videos into latent
representations, is a crucial preceding component of Latent Video Diffusion
Models (LVDMs). With the same reconstruction quality, the more sufficient the
VAE's compression for videos is, the more efficient the LVDMs are. However,
most LVDMs utilize 2D image VAE, whose compression for videos is only in the
spatial dimension and often ignored in the temporal dimension. How to conduct
temporal compression for videos in a VAE to obtain more concise latent
representations while promising accurate reconstruction is seldom explored. To
fill this gap, we propose an omni-dimension compression VAE, named OD-VAE,
which can temporally and spatially compress videos. Although OD-VAE's more
sufficient compression brings a great challenge to video reconstruction, it can
still achieve high reconstructed accuracy by our fine design. To obtain a
better trade-off between video reconstruction quality and compression speed,
four variants of OD-VAE are introduced and analyzed. In addition, a novel tail
initialization is designed to train OD-VAE more efficiently, and a novel
inference strategy is proposed to enable OD-VAE to handle videos of arbitrary
length with limited GPU memory. Comprehensive experiments on video
reconstruction and LVDM-based video generation demonstrate the effectiveness
and efficiency of our proposed methods.Summary
AI-Generated Summary