ChatPaper.aiChatPaper

OD-VAE: Ein omni-dimensionaler Videokompressor zur Verbesserung des latenten Video-Diffusionsmodells

OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model

September 2, 2024
Autoren: Liuhan Chen, Zongjian Li, Bin Lin, Bin Zhu, Qian Wang, Shenghai Yuan, Xing Zhou, Xinghua Cheng, Li Yuan
cs.AI

Zusammenfassung

Variational Autoencoder (VAE), das Videos in latente Repräsentationen komprimiert, ist eine entscheidende vorangehende Komponente von Latent Video Diffusion Models (LVDMs). Bei gleicher Rekonstruktionsqualität sind die LVDMs umso effizienter, je ausreichender die Kompression des VAE für Videos ist. Allerdings nutzen die meisten LVDMs einen 2D-Bild-VAE, dessen Kompression für Videos nur in der räumlichen Dimension erfolgt und die zeitliche Dimension oft vernachlässigt wird. Wie man eine zeitliche Kompression für Videos in einem VAE durchführt, um prägnantere latente Repräsentationen zu erhalten, die eine genaue Rekonstruktion versprechen, wird selten erforscht. Um diese Lücke zu schließen, schlagen wir einen Omni-Dimensionen-Kompressions-VAE namens OD-VAE vor, der Videos sowohl zeitlich als auch räumlich komprimieren kann. Obwohl die umfassendere Kompression des OD-VAE eine große Herausforderung für die Video-Rekonstruktion darstellt, kann sie durch unser feines Design dennoch eine hohe Rekonstruktionsgenauigkeit erreichen. Um ein besseres Gleichgewicht zwischen der Qualität der Video-Rekonstruktion und der Kompressionsgeschwindigkeit zu erzielen, werden vier Varianten des OD-VAE vorgestellt und analysiert. Darüber hinaus wird eine neuartige Tail-Initialisierung entwickelt, um den OD-VAE effizienter zu trainieren, und eine neuartige Inferenzstrategie vorgeschlagen, um es dem OD-VAE zu ermöglichen, Videos beliebiger Länge mit begrenztem GPU-Speicher zu verarbeiten. Umfassende Experimente zur Video-Rekonstruktion und zur Videoerzeugung auf der Grundlage von LVDMs zeigen die Wirksamkeit und Effizienz unserer vorgeschlagenen Methoden.
English
Variational Autoencoder (VAE), compressing videos into latent representations, is a crucial preceding component of Latent Video Diffusion Models (LVDMs). With the same reconstruction quality, the more sufficient the VAE's compression for videos is, the more efficient the LVDMs are. However, most LVDMs utilize 2D image VAE, whose compression for videos is only in the spatial dimension and often ignored in the temporal dimension. How to conduct temporal compression for videos in a VAE to obtain more concise latent representations while promising accurate reconstruction is seldom explored. To fill this gap, we propose an omni-dimension compression VAE, named OD-VAE, which can temporally and spatially compress videos. Although OD-VAE's more sufficient compression brings a great challenge to video reconstruction, it can still achieve high reconstructed accuracy by our fine design. To obtain a better trade-off between video reconstruction quality and compression speed, four variants of OD-VAE are introduced and analyzed. In addition, a novel tail initialization is designed to train OD-VAE more efficiently, and a novel inference strategy is proposed to enable OD-VAE to handle videos of arbitrary length with limited GPU memory. Comprehensive experiments on video reconstruction and LVDM-based video generation demonstrate the effectiveness and efficiency of our proposed methods.

Summary

AI-Generated Summary

PDF142November 16, 2024