OD-VAE: 잠재 비디오 확산 모델 향상을 위한 옴니-차원 비디오 압축기
OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model
September 2, 2024
저자: Liuhan Chen, Zongjian Li, Bin Lin, Bin Zhu, Qian Wang, Shenghai Yuan, Xing Zhou, Xinghua Cheng, Li Yuan
cs.AI
초록
변이 오토인코더(Variational Autoencoder, VAE)는 비디오를 잠재 표현으로 압축하는 것으로, 잠재 비디오 확산 모델(Latent Video Diffusion Models, LVDMs)의 중요한 선행 구성 요소입니다. 동일한 재구성 품질을 유지하면, VAE가 비디오를 위한 압축을 더 효율적으로 수행할수록 LVDMs가 더 효율적입니다. 그러나 대부분의 LVDMs는 2D 이미지 VAE를 사용하며, 이는 비디오를 위한 압축이 공간적 차원에만 있고 시간적 차원에서는 종종 무시됩니다. VAE에서 비디오를 위한 시간적 압축을 어떻게 수행하여 보다 간결한 잠재 표현을 얻으면서 정확한 재구성을 보장할지에 대한 연구는 거의 이루어지지 않았습니다. 이러한 공백을 채우기 위해 우리는 OD-VAE(omni-dimension compression VAE)라는 비디오를 시간적으로와 공간적으로 압축할 수 있는 모델을 제안합니다. OD-VAE의 더 효율적인 압축은 비디오 재구성에 큰 도전을 제기하지만, 저희의 세심한 설계로 높은 재구성 정확도를 달성할 수 있습니다. 비디오 재구성 품질과 압축 속도 사이의 더 나은 균형을 얻기 위해 네 가지 OD-VAE 변형이 소개되고 분석됩니다. 또한, OD-VAE를 더 효율적으로 훈련하기 위해 새로운 테일 초기화 방법이 설계되었고, 제한된 GPU 메모리로 임의 길이의 비디오를 처리할 수 있도록 새로운 추론 전략이 제안되었습니다. 비디오 재구성 및 LVDM 기반 비디오 생성에 대한 포괄적인 실험은 우리가 제안한 방법의 효과성과 효율성을 입증합니다.
English
Variational Autoencoder (VAE), compressing videos into latent
representations, is a crucial preceding component of Latent Video Diffusion
Models (LVDMs). With the same reconstruction quality, the more sufficient the
VAE's compression for videos is, the more efficient the LVDMs are. However,
most LVDMs utilize 2D image VAE, whose compression for videos is only in the
spatial dimension and often ignored in the temporal dimension. How to conduct
temporal compression for videos in a VAE to obtain more concise latent
representations while promising accurate reconstruction is seldom explored. To
fill this gap, we propose an omni-dimension compression VAE, named OD-VAE,
which can temporally and spatially compress videos. Although OD-VAE's more
sufficient compression brings a great challenge to video reconstruction, it can
still achieve high reconstructed accuracy by our fine design. To obtain a
better trade-off between video reconstruction quality and compression speed,
four variants of OD-VAE are introduced and analyzed. In addition, a novel tail
initialization is designed to train OD-VAE more efficiently, and a novel
inference strategy is proposed to enable OD-VAE to handle videos of arbitrary
length with limited GPU memory. Comprehensive experiments on video
reconstruction and LVDM-based video generation demonstrate the effectiveness
and efficiency of our proposed methods.Summary
AI-Generated Summary