VidTwin : VAE Vidéo avec Structure et Dynamique Découplées

papers.abstract

Les récents progrès dans les autoencodeurs vidéo (Video AEs) ont considérablement amélioré la qualité et l'efficacité de la génération de vidéos. Dans cet article, nous proposons un autoencodeur vidéo novateur et compact, VidTwin, qui découple la vidéo en deux espaces latents distincts : des vecteurs latents de structure, qui capturent le contenu global et les mouvements globaux, et des vecteurs latents de dynamique, qui représentent les détails fins et les mouvements rapides. Plus précisément, notre approche exploite une architecture Encodeur-Décodeur, enrichie de deux sous-modules pour extraire respectivement ces espaces latents. Le premier sous-module utilise un Q-Former pour extraire les tendances de mouvement à basse fréquence, suivi de blocs de sous-échantillonnage pour éliminer les détails de contenu redondants. Le second module calcule la moyenne des vecteurs latents le long de la dimension spatiale pour capturer le mouvement rapide. Des expériences approfondies montrent que VidTwin atteint un taux de compression élevé de 0,20 % avec une qualité de reconstruction élevée (PSNR de 28,14 sur l'ensemble de données MCL-JCV), et fonctionne de manière efficace et performante dans les tâches génératives ultérieures. De plus, notre modèle démontre l'explicabilité et la scalabilité, ouvrant la voie à de futures recherches sur la représentation latente et la génération de vidéos. Notre code a été publié sur https://github.com/microsoft/VidTok/tree/main/vidtwin.

English

Recent advancements in video autoencoders (Video AEs) have significantly improved the quality and efficiency of video generation. In this paper, we propose a novel and compact video autoencoder, VidTwin, that decouples video into two distinct latent spaces: Structure latent vectors, which capture overall content and global movement, and Dynamics latent vectors, which represent fine-grained details and rapid movements. Specifically, our approach leverages an Encoder-Decoder backbone, augmented with two submodules for extracting these latent spaces, respectively. The first submodule employs a Q-Former to extract low-frequency motion trends, followed by downsampling blocks to remove redundant content details. The second averages the latent vectors along the spatial dimension to capture rapid motion. Extensive experiments show that VidTwin achieves a high compression rate of 0.20% with high reconstruction quality (PSNR of 28.14 on the MCL-JCV dataset), and performs efficiently and effectively in downstream generative tasks. Moreover, our model demonstrates explainability and scalability, paving the way for future research in video latent representation and generation. Our code has been released at https://github.com/microsoft/VidTok/tree/main/vidtwin.

VidTwin : VAE Vidéo avec Structure et Dynamique Découplées

VidTwin: Video VAE with Decoupled Structure and Dynamics

papers.abstract

Support