WF-VAE: Verbesserung des Video-VAE durch wellenlettengetriebenen Energiefluss für das latente Video-Diffusionsmodell
WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model
November 26, 2024
Autoren: Zongjian Li, Bin Lin, Yang Ye, Liuhan Chen, Xinhua Cheng, Shenghai Yuan, Li Yuan
cs.AI
Zusammenfassung
Der Video-Variational Autoencoder (VAE) kodiert Videos in einen niedrigdimensionalen latenten Raum und wird zu einem Schlüsselelement in den meisten Modellen zur Latenten Video-Diffusion (LVDM), um die Trainingskosten des Modells zu reduzieren. Allerdings wird die Kodierungskosten von Video-VAEs zu einem begrenzenden Engpass im Training von LVDMs, wenn die Auflösung und Dauer der generierten Videos zunehmen. Darüber hinaus kann die blockweise Inferenzmethode, die von den meisten LVDMs übernommen wird, zu Diskontinuitäten im latenten Raum führen, wenn lange Videos verarbeitet werden. Der Schlüssel zur Bewältigung des Rechenengpasses liegt darin, Videos in verschiedene Komponenten zu zerlegen und die wichtigen Informationen effizient zu kodieren. Die Wavelet-Transformation kann Videos in mehrere Frequenzdomänenkomponenten zerlegen und die Effizienz erheblich verbessern. Daher schlagen wir den Wavelet-Flow-VAE (WF-VAE) vor, einen Autoencoder, der die mehrstufige Wavelet-Transformation nutzt, um den Energiefluss mit niedriger Frequenz in die latente Darstellung zu erleichtern. Darüber hinaus führen wir eine Methode namens "Causal Cache" ein, die die Integrität des latenten Raums während der blockweisen Inferenz aufrechterhält. Im Vergleich zu modernsten Video-VAEs zeigt der WF-VAE eine überlegene Leistung sowohl in PSNR als auch in LPIPS Metriken, erreicht eine doppelte Durchsatzrate und eine vierfach niedrigere Speichernutzung bei gleichzeitiger Beibehaltung einer wettbewerbsfähigen Rekonstruktionsqualität. Unser Code und unsere Modelle sind unter https://github.com/PKU-YuanGroup/WF-VAE verfügbar.
English
Video Variational Autoencoder (VAE) encodes videos into a low-dimensional
latent space, becoming a key component of most Latent Video Diffusion Models
(LVDMs) to reduce model training costs. However, as the resolution and duration
of generated videos increase, the encoding cost of Video VAEs becomes a
limiting bottleneck in training LVDMs. Moreover, the block-wise inference
method adopted by most LVDMs can lead to discontinuities of latent space when
processing long-duration videos. The key to addressing the computational
bottleneck lies in decomposing videos into distinct components and efficiently
encoding the critical information. Wavelet transform can decompose videos into
multiple frequency-domain components and improve the efficiency significantly,
we thus propose Wavelet Flow VAE (WF-VAE), an autoencoder that leverages
multi-level wavelet transform to facilitate low-frequency energy flow into
latent representation. Furthermore, we introduce a method called Causal Cache,
which maintains the integrity of latent space during block-wise inference.
Compared to state-of-the-art video VAEs, WF-VAE demonstrates superior
performance in both PSNR and LPIPS metrics, achieving 2x higher throughput and
4x lower memory consumption while maintaining competitive reconstruction
quality. Our code and models are available at
https://github.com/PKU-YuanGroup/WF-VAE.Summary
AI-Generated Summary