ChatPaper.aiChatPaper

WF-VAE: ウェーブレット駆動エネルギーフローによる潜在ビデオ拡散モデルのためのビデオVAEの強化

WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

November 26, 2024
著者: Zongjian Li, Bin Lin, Yang Ye, Liuhan Chen, Xinhua Cheng, Shenghai Yuan, Li Yuan
cs.AI

要旨

ビデオ変分オートエンコーダー(VAE)は、ビデオを低次元の潜在空間にエンコードし、モデルのトレーニングコストを削減するために多くの潜在ビデオ拡散モデル(LVDM)の主要なコンポーネントとなっています。ただし、生成されるビデオの解像度と長さが増加すると、ビデオVAEのエンコーディングコストはLVDMのトレーニングにおいて制限となるボトルネックとなります。さらに、ほとんどのLVDMで採用されているブロック単位の推論方法は、長時間のビデオを処理する際に潜在空間の不連続性を引き起こす可能性があります。計算上のボトルネックに対処する鍵は、ビデオを異なるコンポーネントに分解し、重要な情報を効率的にエンコードすることにあります。ウェーブレット変換は、ビデオを複数の周波数領域コンポーネントに分解し、効率を大幅に向上させることができます。このため、私たちはウェーブレットフローオートエンコーダー(WF-VAE)を提案します。これは、マルチレベルのウェーブレット変換を活用して、低周波エネルギーを潜在表現に流すことを容易にするオートエンコーダーです。さらに、ブロック単位の推論中に潜在空間の整合性を維持する「因果キャッシュ」と呼ばれる手法を導入します。最先端のビデオVAEと比較して、WF-VAEはPSNRおよびLPIPSメトリクスの両方で優れた性能を示し、競争力のある再構成品質を維持しつつ、スループットが2倍高く、メモリ消費量が4倍少なくなります。私たちのコードとモデルは、https://github.com/PKU-YuanGroup/WF-VAE で入手可能です。
English
Video Variational Autoencoder (VAE) encodes videos into a low-dimensional latent space, becoming a key component of most Latent Video Diffusion Models (LVDMs) to reduce model training costs. However, as the resolution and duration of generated videos increase, the encoding cost of Video VAEs becomes a limiting bottleneck in training LVDMs. Moreover, the block-wise inference method adopted by most LVDMs can lead to discontinuities of latent space when processing long-duration videos. The key to addressing the computational bottleneck lies in decomposing videos into distinct components and efficiently encoding the critical information. Wavelet transform can decompose videos into multiple frequency-domain components and improve the efficiency significantly, we thus propose Wavelet Flow VAE (WF-VAE), an autoencoder that leverages multi-level wavelet transform to facilitate low-frequency energy flow into latent representation. Furthermore, we introduce a method called Causal Cache, which maintains the integrity of latent space during block-wise inference. Compared to state-of-the-art video VAEs, WF-VAE demonstrates superior performance in both PSNR and LPIPS metrics, achieving 2x higher throughput and 4x lower memory consumption while maintaining competitive reconstruction quality. Our code and models are available at https://github.com/PKU-YuanGroup/WF-VAE.

Summary

AI-Generated Summary

PDF112December 3, 2024