WF-VAE: Verbetering van Video VAE door Wavelet-Gestuurde Energieflow voor Latent Video Diffusie Model
WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model
November 26, 2024
Auteurs: Zongjian Li, Bin Lin, Yang Ye, Liuhan Chen, Xinhua Cheng, Shenghai Yuan, Li Yuan
cs.AI
Samenvatting
Een Video Variational Autoencoder (VAE) codeert video's in een laag-dimensionale latente ruimte en is een essentieel onderdeel van de meeste Latente Video Diffusie Modellen (LVDM's) om de trainingskosten van modellen te verlagen. Echter, naarmate de resolutie en duur van gegenereerde video's toenemen, wordt de coderingskost van Video VAEs een beperkende bottleneck in het trainen van LVDM's. Bovendien kan de bloksgewijze inferentiemethode die door de meeste LVDM's wordt aangenomen, leiden tot discontinuïteiten van de latente ruimte bij het verwerken van langdurige video's. De sleutel tot het aanpakken van de computationele bottleneck ligt in het opsplitsen van video's in afzonderlijke componenten en het efficiënt coderen van de cruciale informatie. Wavelet-transformatie kan video's opsplitsen in meerdere frequentiedomeincomponenten en de efficiëntie aanzienlijk verbeteren. Daarom stellen we Wavelet Flow VAE (WF-VAE) voor, een auto-encoder die gebruikmaakt van meerlaagse wavelet-transformatie om de stroom van laagfrequente energie naar de latente representatie te vergemakkelijken. Bovendien introduceren we een methode genaamd Causale Cache, die de integriteit van de latente ruimte tijdens bloksgewijze inferentie handhaaft. In vergelijking met toonaangevende video VAEs, toont WF-VAE superieure prestaties op zowel PSNR- als LPIPS-metrieken, waarbij een 2x hogere doorvoer en 4x lagere geheugenconsumptie worden bereikt, terwijl de competitieve reconstructiekwaliteit behouden blijft. Onze code en modellen zijn beschikbaar op https://github.com/PKU-YuanGroup/WF-VAE.
English
Video Variational Autoencoder (VAE) encodes videos into a low-dimensional
latent space, becoming a key component of most Latent Video Diffusion Models
(LVDMs) to reduce model training costs. However, as the resolution and duration
of generated videos increase, the encoding cost of Video VAEs becomes a
limiting bottleneck in training LVDMs. Moreover, the block-wise inference
method adopted by most LVDMs can lead to discontinuities of latent space when
processing long-duration videos. The key to addressing the computational
bottleneck lies in decomposing videos into distinct components and efficiently
encoding the critical information. Wavelet transform can decompose videos into
multiple frequency-domain components and improve the efficiency significantly,
we thus propose Wavelet Flow VAE (WF-VAE), an autoencoder that leverages
multi-level wavelet transform to facilitate low-frequency energy flow into
latent representation. Furthermore, we introduce a method called Causal Cache,
which maintains the integrity of latent space during block-wise inference.
Compared to state-of-the-art video VAEs, WF-VAE demonstrates superior
performance in both PSNR and LPIPS metrics, achieving 2x higher throughput and
4x lower memory consumption while maintaining competitive reconstruction
quality. Our code and models are available at
https://github.com/PKU-YuanGroup/WF-VAE.