OD-VAE: Un compressore video omni-dimensionale per migliorare il modello di diffusione video latente
OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model
September 2, 2024
Autori: Liuhan Chen, Zongjian Li, Bin Lin, Bin Zhu, Qian Wang, Shenghai Yuan, Xing Zhou, Xinghua Cheng, Li Yuan
cs.AI
Abstract
Il Variational Autoencoder (VAE), che comprime i video in rappresentazioni latenti, è un componente cruciale precedente dei Modelli di Diffusione Video Latenti (LVDM). Con la stessa qualità di ricostruzione, maggiore è l'efficienza della compressione dei video da parte del VAE, più efficienti saranno i LVDM. Tuttavia, la maggior parte dei LVDM utilizza il VAE delle immagini 2D, la cui compressione per i video riguarda solo la dimensione spaziale e spesso trascura la dimensione temporale. Come condurre la compressione temporale dei video in un VAE per ottenere rappresentazioni latenti più concise pur garantendo un'accurata ricostruzione è raramente esplorato. Per colmare questa lacuna, proponiamo un VAE di compressione onmi-dimensionale, chiamato OD-VAE, che può comprimere i video temporalmente e spazialmente. Anche se la compressione più efficiente di OD-VAE rappresenta una grande sfida per la ricostruzione video, può comunque raggiungere un'alta precisione nella ricostruzione grazie al nostro accurato design. Per ottenere un migliore compromesso tra la qualità della ricostruzione video e la velocità di compressione, vengono introdotte e analizzate quattro varianti di OD-VAE. Inoltre, è stata progettata una nuova inizializzazione della coda per addestrare OD-VAE in modo più efficiente, e una nuova strategia di inferenza è proposta per consentire a OD-VAE di gestire video di lunghezza arbitraria con una memoria GPU limitata. Esperimenti approfonditi sulla ricostruzione video e sulla generazione video basata su LVDM dimostrano l'efficacia e l'efficienza dei nostri metodi proposti.
English
Variational Autoencoder (VAE), compressing videos into latent
representations, is a crucial preceding component of Latent Video Diffusion
Models (LVDMs). With the same reconstruction quality, the more sufficient the
VAE's compression for videos is, the more efficient the LVDMs are. However,
most LVDMs utilize 2D image VAE, whose compression for videos is only in the
spatial dimension and often ignored in the temporal dimension. How to conduct
temporal compression for videos in a VAE to obtain more concise latent
representations while promising accurate reconstruction is seldom explored. To
fill this gap, we propose an omni-dimension compression VAE, named OD-VAE,
which can temporally and spatially compress videos. Although OD-VAE's more
sufficient compression brings a great challenge to video reconstruction, it can
still achieve high reconstructed accuracy by our fine design. To obtain a
better trade-off between video reconstruction quality and compression speed,
four variants of OD-VAE are introduced and analyzed. In addition, a novel tail
initialization is designed to train OD-VAE more efficiently, and a novel
inference strategy is proposed to enable OD-VAE to handle videos of arbitrary
length with limited GPU memory. Comprehensive experiments on video
reconstruction and LVDM-based video generation demonstrate the effectiveness
and efficiency of our proposed methods.