OD-VAE: Een omnidimensionale videocompressor voor het verbeteren van latente videodiffusiemodellen
OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model
September 2, 2024
Auteurs: Liuhan Chen, Zongjian Li, Bin Lin, Bin Zhu, Qian Wang, Shenghai Yuan, Xing Zhou, Xinghua Cheng, Li Yuan
cs.AI
Samenvatting
De Variational Autoencoder (VAE), die video's comprimeert naar latente representaties, is een cruciaal voorafgaand onderdeel van Latent Video Diffusion Models (LVDMs). Bij dezelfde reconstructiekwaliteit geldt: hoe efficiënter de VAE video's kan comprimeren, des te efficiënter de LVDMs zijn. De meeste LVDMs maken echter gebruik van een 2D-beeld-VAE, waarvan de compressie van video's alleen in de ruimtelijke dimensie plaatsvindt en vaak de temporele dimensie negeert. Hoe temporele compressie van video's in een VAE kan worden uitgevoerd om meer beknopte latente representaties te verkrijgen, terwijl nauwkeurige reconstructie wordt gegarandeerd, is zelden onderzocht. Om deze leemte op te vullen, stellen we een omni-dimensionele compressie-VAE voor, genaamd OD-VAE, die video's zowel temporeel als ruimtelijk kan comprimeren. Hoewel de efficiëntere compressie van OD-VAE een grote uitdaging vormt voor videoreconstructie, kan het toch een hoge reconstructienauwkeurigheid bereiken dankzij ons zorgvuldige ontwerp. Om een betere balans te vinden tussen de kwaliteit van videoreconstructie en compressiesnelheid, worden vier varianten van OD-VAE geïntroduceerd en geanalyseerd. Daarnaast is een nieuwe tail-initialisatie ontworpen om OD-VAE efficiënter te trainen, en is een nieuwe inferentiestrategie voorgesteld om OD-VAE in staat te stellen video's van willekeurige lengte te verwerken met beperkt GPU-geheugen. Uitgebreide experimenten op het gebied van videoreconstructie en LVDM-gebaseerde videogeneratie demonstreren de effectiviteit en efficiëntie van onze voorgestelde methoden.
English
Variational Autoencoder (VAE), compressing videos into latent
representations, is a crucial preceding component of Latent Video Diffusion
Models (LVDMs). With the same reconstruction quality, the more sufficient the
VAE's compression for videos is, the more efficient the LVDMs are. However,
most LVDMs utilize 2D image VAE, whose compression for videos is only in the
spatial dimension and often ignored in the temporal dimension. How to conduct
temporal compression for videos in a VAE to obtain more concise latent
representations while promising accurate reconstruction is seldom explored. To
fill this gap, we propose an omni-dimension compression VAE, named OD-VAE,
which can temporally and spatially compress videos. Although OD-VAE's more
sufficient compression brings a great challenge to video reconstruction, it can
still achieve high reconstructed accuracy by our fine design. To obtain a
better trade-off between video reconstruction quality and compression speed,
four variants of OD-VAE are introduced and analyzed. In addition, a novel tail
initialization is designed to train OD-VAE more efficiently, and a novel
inference strategy is proposed to enable OD-VAE to handle videos of arbitrary
length with limited GPU memory. Comprehensive experiments on video
reconstruction and LVDM-based video generation demonstrate the effectiveness
and efficiency of our proposed methods.Summary
AI-Generated Summary