VidTwin: Видео VAE с разделенной структурой и динамикой
VidTwin: Video VAE with Decoupled Structure and Dynamics
December 23, 2024
Авторы: Yuchi Wang, Junliang Guo, Xinyi Xie, Tianyu He, Xu Sun, Jiang Bian
cs.AI
Аннотация
Недавние достижения в области видео автоэнкодеров (Video AEs) значительно улучшили качество и эффективность генерации видео. В данной статье мы предлагаем новый и компактный видео автоэнкодер, VidTwin, который разделяет видео на два различных скрытых пространства: векторы скрытой структуры, которые захватывают общее содержание и глобальное движение, и векторы скрытой динамики, которые представляют мелкие детали и быстрые движения. Конкретно, наш подход использует основу Энкодер-Декодер, дополненную двумя подмодулями для извлечения этих скрытых пространств соответственно. Первый подмодуль использует Q-Former для извлечения низкочастотных тенденций движения, за которыми следуют блоки снижения частоты дискретизации для удаления избыточных деталей содержания. Второй усредняет скрытые векторы вдоль пространственного измерения для захвата быстрого движения. Обширные эксперименты показывают, что VidTwin достигает высокой степени сжатия 0,20% с высоким качеством восстановления (PSNR 28,14 на наборе данных MCL-JCV) и эффективно выполняет задачи генерации. Более того, наша модель демонстрирует объяснимость и масштабируемость, что открывает путь для будущих исследований в области представления и генерации скрытых представлений видео. Наш код доступен по ссылке https://github.com/microsoft/VidTok/tree/main/vidtwin.
English
Recent advancements in video autoencoders (Video AEs) have significantly
improved the quality and efficiency of video generation. In this paper, we
propose a novel and compact video autoencoder, VidTwin, that decouples video
into two distinct latent spaces: Structure latent vectors, which capture
overall content and global movement, and Dynamics latent vectors, which
represent fine-grained details and rapid movements. Specifically, our approach
leverages an Encoder-Decoder backbone, augmented with two submodules for
extracting these latent spaces, respectively. The first submodule employs a
Q-Former to extract low-frequency motion trends, followed by downsampling
blocks to remove redundant content details. The second averages the latent
vectors along the spatial dimension to capture rapid motion. Extensive
experiments show that VidTwin achieves a high compression rate of 0.20% with
high reconstruction quality (PSNR of 28.14 on the MCL-JCV dataset), and
performs efficiently and effectively in downstream generative tasks. Moreover,
our model demonstrates explainability and scalability, paving the way for
future research in video latent representation and generation. Our code has
been released at https://github.com/microsoft/VidTok/tree/main/vidtwin.Summary
AI-Generated Summary