VidTwin : VAE Vidéo avec Structure et Dynamique Découplées
VidTwin: Video VAE with Decoupled Structure and Dynamics
December 23, 2024
Auteurs: Yuchi Wang, Junliang Guo, Xinyi Xie, Tianyu He, Xu Sun, Jiang Bian
cs.AI
Résumé
Les récents progrès dans les autoencodeurs vidéo (Video AEs) ont considérablement amélioré la qualité et l'efficacité de la génération de vidéos. Dans cet article, nous proposons un autoencodeur vidéo novateur et compact, VidTwin, qui découple la vidéo en deux espaces latents distincts : des vecteurs latents de structure, qui capturent le contenu global et les mouvements globaux, et des vecteurs latents de dynamique, qui représentent les détails fins et les mouvements rapides. Plus précisément, notre approche exploite une architecture Encodeur-Décodeur, enrichie de deux sous-modules pour extraire respectivement ces espaces latents. Le premier sous-module utilise un Q-Former pour extraire les tendances de mouvement à basse fréquence, suivi de blocs de sous-échantillonnage pour éliminer les détails de contenu redondants. Le second module calcule la moyenne des vecteurs latents le long de la dimension spatiale pour capturer le mouvement rapide. Des expériences approfondies montrent que VidTwin atteint un taux de compression élevé de 0,20 % avec une qualité de reconstruction élevée (PSNR de 28,14 sur l'ensemble de données MCL-JCV), et fonctionne de manière efficace et performante dans les tâches génératives ultérieures. De plus, notre modèle démontre l'explicabilité et la scalabilité, ouvrant la voie à de futures recherches sur la représentation latente et la génération de vidéos. Notre code a été publié sur https://github.com/microsoft/VidTok/tree/main/vidtwin.
English
Recent advancements in video autoencoders (Video AEs) have significantly
improved the quality and efficiency of video generation. In this paper, we
propose a novel and compact video autoencoder, VidTwin, that decouples video
into two distinct latent spaces: Structure latent vectors, which capture
overall content and global movement, and Dynamics latent vectors, which
represent fine-grained details and rapid movements. Specifically, our approach
leverages an Encoder-Decoder backbone, augmented with two submodules for
extracting these latent spaces, respectively. The first submodule employs a
Q-Former to extract low-frequency motion trends, followed by downsampling
blocks to remove redundant content details. The second averages the latent
vectors along the spatial dimension to capture rapid motion. Extensive
experiments show that VidTwin achieves a high compression rate of 0.20% with
high reconstruction quality (PSNR of 28.14 on the MCL-JCV dataset), and
performs efficiently and effectively in downstream generative tasks. Moreover,
our model demonstrates explainability and scalability, paving the way for
future research in video latent representation and generation. Our code has
been released at https://github.com/microsoft/VidTok/tree/main/vidtwin.Summary
AI-Generated Summary