OD-VAE: Um Compressor de Vídeo Omnidimensional para Melhorar o Modelo de Difusão de Vídeo Latente
OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model
September 2, 2024
Autores: Liuhan Chen, Zongjian Li, Bin Lin, Bin Zhu, Qian Wang, Shenghai Yuan, Xing Zhou, Xinghua Cheng, Li Yuan
cs.AI
Resumo
O Codificador Variacional (VAE), que comprime vídeos em representações latentes, é um componente crucial anterior dos Modelos de Difusão de Vídeo Latente (LVDMs). Com a mesma qualidade de reconstrução, quanto mais suficiente for a compressão do VAE para vídeos, mais eficientes serão os LVDMs. No entanto, a maioria dos LVDMs utiliza VAE de imagens 2D, cuja compressão para vídeos é apenas na dimensão espacial e frequentemente ignorada na dimensão temporal. Como realizar a compressão temporal de vídeos em um VAE para obter representações latentes mais concisas, prometendo uma reconstrução precisa, é raramente explorado. Para preencher essa lacuna, propomos um VAE de compressão oni-dimensional, chamado OD-VAE, que pode comprimir vídeos temporal e espacialmente. Embora a compressão mais suficiente do OD-VAE represente um grande desafio para a reconstrução de vídeos, ainda é possível alcançar alta precisão de reconstrução por meio de nosso projeto refinado. Para obter um melhor equilíbrio entre a qualidade de reconstrução de vídeo e a velocidade de compressão, são introduzidas e analisadas quatro variantes do OD-VAE. Além disso, uma nova inicialização de cauda é projetada para treinar o OD-VAE de forma mais eficiente, e uma nova estratégia de inferência é proposta para permitir que o OD-VAE lide com vídeos de comprimentos arbitrários com memória limitada da GPU. Experimentos abrangentes sobre reconstrução de vídeo e geração de vídeo com base em LVDM demonstram a eficácia e eficiência de nossos métodos propostos.
English
Variational Autoencoder (VAE), compressing videos into latent
representations, is a crucial preceding component of Latent Video Diffusion
Models (LVDMs). With the same reconstruction quality, the more sufficient the
VAE's compression for videos is, the more efficient the LVDMs are. However,
most LVDMs utilize 2D image VAE, whose compression for videos is only in the
spatial dimension and often ignored in the temporal dimension. How to conduct
temporal compression for videos in a VAE to obtain more concise latent
representations while promising accurate reconstruction is seldom explored. To
fill this gap, we propose an omni-dimension compression VAE, named OD-VAE,
which can temporally and spatially compress videos. Although OD-VAE's more
sufficient compression brings a great challenge to video reconstruction, it can
still achieve high reconstructed accuracy by our fine design. To obtain a
better trade-off between video reconstruction quality and compression speed,
four variants of OD-VAE are introduced and analyzed. In addition, a novel tail
initialization is designed to train OD-VAE more efficiently, and a novel
inference strategy is proposed to enable OD-VAE to handle videos of arbitrary
length with limited GPU memory. Comprehensive experiments on video
reconstruction and LVDM-based video generation demonstrate the effectiveness
and efficiency of our proposed methods.Summary
AI-Generated Summary