OD-VAE: Омни-мерный видео-кодер для улучшения латентной модели диффузии видео.
OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model
September 2, 2024
Авторы: Liuhan Chen, Zongjian Li, Bin Lin, Bin Zhu, Qian Wang, Shenghai Yuan, Xing Zhou, Xinghua Cheng, Li Yuan
cs.AI
Аннотация
Вариационный автокодировщик (VAE), сжимающий видео в латентные представления, является ключевым предшествующим компонентом моделей латентной диффузии видео (LVDM). При одинаковом качестве восстановления, чем более достаточное сжатие видео обеспечивает VAE, тем эффективнее становятся LVDM. Однако большинство LVDM используют 2D изображения VAE, сжимающие видео только по пространственному измерению и часто игнорирующие временное измерение. Как провести временное сжатие видео в VAE для получения более кратких латентных представлений, сохраняя точность восстановления, редко исследуется. Для заполнения этого пробела мы предлагаем VAE с общим сжатием по всем измерениям, названный OD-VAE, который может сжимать видео как по временной, так и по пространственной размерностям. Хотя более достаточное сжатие OD-VAE представляет собой большое испытание для восстановления видео, оно все равно может достичь высокой точности восстановления благодаря нашему тщательному проектированию. Для достижения лучшего баланса между качеством восстановления видео и скоростью сжатия, мы представляем и анализируем четыре варианта OD-VAE. Кроме того, разработана новая стратегия инициализации для более эффективного обучения OD-VAE, а также предложена новая стратегия вывода, позволяющая OD-VAE обрабатывать видео произвольной длины с ограниченной памятью GPU. Обширные эксперименты по восстановлению видео и генерации видео на основе LVDM демонстрируют эффективность и эффективность наших предложенных методов.
English
Variational Autoencoder (VAE), compressing videos into latent
representations, is a crucial preceding component of Latent Video Diffusion
Models (LVDMs). With the same reconstruction quality, the more sufficient the
VAE's compression for videos is, the more efficient the LVDMs are. However,
most LVDMs utilize 2D image VAE, whose compression for videos is only in the
spatial dimension and often ignored in the temporal dimension. How to conduct
temporal compression for videos in a VAE to obtain more concise latent
representations while promising accurate reconstruction is seldom explored. To
fill this gap, we propose an omni-dimension compression VAE, named OD-VAE,
which can temporally and spatially compress videos. Although OD-VAE's more
sufficient compression brings a great challenge to video reconstruction, it can
still achieve high reconstructed accuracy by our fine design. To obtain a
better trade-off between video reconstruction quality and compression speed,
four variants of OD-VAE are introduced and analyzed. In addition, a novel tail
initialization is designed to train OD-VAE more efficiently, and a novel
inference strategy is proposed to enable OD-VAE to handle videos of arbitrary
length with limited GPU memory. Comprehensive experiments on video
reconstruction and LVDM-based video generation demonstrate the effectiveness
and efficiency of our proposed methods.Summary
AI-Generated Summary