OD-VAE: Un Compresor de Video Omnidimensional para Mejorar el Modelo de Difusión de Video Latente.
OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model
September 2, 2024
Autores: Liuhan Chen, Zongjian Li, Bin Lin, Bin Zhu, Qian Wang, Shenghai Yuan, Xing Zhou, Xinghua Cheng, Li Yuan
cs.AI
Resumen
El Autoencoder Variacional (VAE), que comprime videos en representaciones latentes, es un componente crucial previo de los Modelos de Difusión de Video Latente (LVDMs). Con la misma calidad de reconstrucción, cuanto más suficiente sea la compresión del VAE para videos, más eficientes son los LVDMs. Sin embargo, la mayoría de los LVDMs utilizan VAE de imágenes 2D, cuya compresión para videos se limita solo a la dimensión espacial y a menudo se ignora en la dimensión temporal. Cómo llevar a cabo la compresión temporal de videos en un VAE para obtener representaciones latentes más concisas mientras se promete una reconstrucción precisa rara vez se explora. Para llenar este vacío, proponemos un VAE de compresión omni-dimensional, llamado OD-VAE, que puede comprimir videos tanto temporal como espacialmente. Aunque la compresión más suficiente de OD-VAE plantea un gran desafío para la reconstrucción de video, aún puede lograr una alta precisión de reconstrucción mediante nuestro diseño detallado. Para obtener un mejor equilibrio entre la calidad de reconstrucción de video y la velocidad de compresión, se introducen y analizan cuatro variantes de OD-VAE. Además, se diseña una nueva inicialización de cola para entrenar OD-VAE de manera más eficiente, y se propone una nueva estrategia de inferencia para permitir que OD-VAE maneje videos de longitud arbitraria con memoria limitada de GPU. Experimentos exhaustivos sobre reconstrucción de video y generación de video basada en LVDMs demuestran la efectividad y eficiencia de nuestros métodos propuestos.
English
Variational Autoencoder (VAE), compressing videos into latent
representations, is a crucial preceding component of Latent Video Diffusion
Models (LVDMs). With the same reconstruction quality, the more sufficient the
VAE's compression for videos is, the more efficient the LVDMs are. However,
most LVDMs utilize 2D image VAE, whose compression for videos is only in the
spatial dimension and often ignored in the temporal dimension. How to conduct
temporal compression for videos in a VAE to obtain more concise latent
representations while promising accurate reconstruction is seldom explored. To
fill this gap, we propose an omni-dimension compression VAE, named OD-VAE,
which can temporally and spatially compress videos. Although OD-VAE's more
sufficient compression brings a great challenge to video reconstruction, it can
still achieve high reconstructed accuracy by our fine design. To obtain a
better trade-off between video reconstruction quality and compression speed,
four variants of OD-VAE are introduced and analyzed. In addition, a novel tail
initialization is designed to train OD-VAE more efficiently, and a novel
inference strategy is proposed to enable OD-VAE to handle videos of arbitrary
length with limited GPU memory. Comprehensive experiments on video
reconstruction and LVDM-based video generation demonstrate the effectiveness
and efficiency of our proposed methods.