ChatPaper.aiChatPaper

OD-VAE : Un compresseur vidéo omni-dimensionnel pour améliorer le modèle de diffusion vidéo latent

OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model

September 2, 2024
Auteurs: Liuhan Chen, Zongjian Li, Bin Lin, Bin Zhu, Qian Wang, Shenghai Yuan, Xing Zhou, Xinghua Cheng, Li Yuan
cs.AI

Résumé

Les autoencodeurs variationnels (VAE), qui compressent des vidéos en représentations latentes, sont un composant crucial précédant les Modèles de Diffusion Vidéo Latente (LVDM). Avec la même qualité de reconstruction, plus la compression des vidéos par le VAE est suffisante, plus les LVDM sont efficaces. Cependant, la plupart des LVDM utilisent un VAE d'image 2D, dont la compression des vidéos se limite à la dimension spatiale et est souvent négligée dans la dimension temporelle. Comment réaliser une compression temporelle des vidéos dans un VAE pour obtenir des représentations latentes plus concises tout en garantissant une reconstruction précise est rarement exploré. Pour combler cette lacune, nous proposons un VAE de compression omni-dimensionnelle, nommé OD-VAE, capable de compresser temporellement et spatialement des vidéos. Bien que la compression plus suffisante de l'OD-VAE représente un grand défi pour la reconstruction vidéo, elle peut toujours atteindre une précision de reconstruction élevée grâce à notre conception fine. Pour obtenir un meilleur compromis entre la qualité de reconstruction vidéo et la vitesse de compression, quatre variantes d'OD-VAE sont introduites et analysées. De plus, une nouvelle initialisation de queue est conçue pour entraîner l'OD-VAE de manière plus efficace, et une nouvelle stratégie d'inférence est proposée pour permettre à l'OD-VAE de gérer des vidéos de longueur arbitraire avec une mémoire GPU limitée. Des expériences approfondies sur la reconstruction vidéo et la génération vidéo basée sur les LVDM démontrent l'efficacité et l'efficience de nos méthodes proposées.
English
Variational Autoencoder (VAE), compressing videos into latent representations, is a crucial preceding component of Latent Video Diffusion Models (LVDMs). With the same reconstruction quality, the more sufficient the VAE's compression for videos is, the more efficient the LVDMs are. However, most LVDMs utilize 2D image VAE, whose compression for videos is only in the spatial dimension and often ignored in the temporal dimension. How to conduct temporal compression for videos in a VAE to obtain more concise latent representations while promising accurate reconstruction is seldom explored. To fill this gap, we propose an omni-dimension compression VAE, named OD-VAE, which can temporally and spatially compress videos. Although OD-VAE's more sufficient compression brings a great challenge to video reconstruction, it can still achieve high reconstructed accuracy by our fine design. To obtain a better trade-off between video reconstruction quality and compression speed, four variants of OD-VAE are introduced and analyzed. In addition, a novel tail initialization is designed to train OD-VAE more efficiently, and a novel inference strategy is proposed to enable OD-VAE to handle videos of arbitrary length with limited GPU memory. Comprehensive experiments on video reconstruction and LVDM-based video generation demonstrate the effectiveness and efficiency of our proposed methods.

Summary

AI-Generated Summary

PDF142November 16, 2024