VidTwin: VAE de Video con Estructura y Dinámicas Desacopladas
VidTwin: Video VAE with Decoupled Structure and Dynamics
December 23, 2024
Autores: Yuchi Wang, Junliang Guo, Xinyi Xie, Tianyu He, Xu Sun, Jiang Bian
cs.AI
Resumen
Los avances recientes en autoencoders de video (Video AEs) han mejorado significativamente la calidad y eficiencia de la generación de video. En este documento, proponemos un autoencoder de video novedoso y compacto, VidTwin, que desacopla el video en dos espacios latentes distintos: vectores latentes de Estructura, que capturan el contenido general y el movimiento global, y vectores latentes de Dinámica, que representan detalles detallados y movimientos rápidos. Específicamente, nuestro enfoque aprovecha una estructura Codificador-Decodificador, complementada con dos submódulos para extraer estos espacios latentes, respectivamente. El primer submódulo emplea un Q-Former para extraer tendencias de movimiento de baja frecuencia, seguido de bloques de submuestreo para eliminar detalles de contenido redundantes. El segundo promedia los vectores latentes a lo largo de la dimensión espacial para capturar el movimiento rápido. Experimentos extensos muestran que VidTwin logra una alta tasa de compresión del 0.20% con una alta calidad de reconstrucción (PSNR de 28.14 en el conjunto de datos MCL-JCV), y se desempeña de manera eficiente y efectiva en tareas generativas posteriores. Además, nuestro modelo demuestra explicabilidad y escalabilidad, allanando el camino para futuras investigaciones en representación latente y generación de video. Nuestro código ha sido publicado en https://github.com/microsoft/VidTok/tree/main/vidtwin.
English
Recent advancements in video autoencoders (Video AEs) have significantly
improved the quality and efficiency of video generation. In this paper, we
propose a novel and compact video autoencoder, VidTwin, that decouples video
into two distinct latent spaces: Structure latent vectors, which capture
overall content and global movement, and Dynamics latent vectors, which
represent fine-grained details and rapid movements. Specifically, our approach
leverages an Encoder-Decoder backbone, augmented with two submodules for
extracting these latent spaces, respectively. The first submodule employs a
Q-Former to extract low-frequency motion trends, followed by downsampling
blocks to remove redundant content details. The second averages the latent
vectors along the spatial dimension to capture rapid motion. Extensive
experiments show that VidTwin achieves a high compression rate of 0.20% with
high reconstruction quality (PSNR of 28.14 on the MCL-JCV dataset), and
performs efficiently and effectively in downstream generative tasks. Moreover,
our model demonstrates explainability and scalability, paving the way for
future research in video latent representation and generation. Our code has
been released at https://github.com/microsoft/VidTok/tree/main/vidtwin.Summary
AI-Generated Summary