VidTwin: Video-VAE mit entkoppelter Struktur und Dynamik
VidTwin: Video VAE with Decoupled Structure and Dynamics
December 23, 2024
Autoren: Yuchi Wang, Junliang Guo, Xinyi Xie, Tianyu He, Xu Sun, Jiang Bian
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte bei Videoautoencodern (Video AEs) die Qualität und Effizienz der Videogenerierung erheblich verbessert. In diesem Artikel schlagen wir einen neuartigen und kompakten Videoautoencoder namens VidTwin vor, der Videos in zwei unterschiedliche latente Räume aufteilt: Struktur-latente Vektoren, die den Gesamtinhalt und die globale Bewegung erfassen, und Dynamik-latente Vektoren, die feine Details und schnelle Bewegungen darstellen. Speziell nutzt unser Ansatz ein Encoder-Decoder-Grundgerüst, das mit zwei Untermodulen zur Extraktion dieser latenten Räume erweitert ist. Das erste Untermodul verwendet ein Q-Former, um niederfrequente Bewegungstrends zu extrahieren, gefolgt von Downsampling-Blöcken, um redundante Inhaltsdetails zu entfernen. Das zweite Mittel berechnet den Durchschnitt der latenten Vektoren entlang der räumlichen Dimension, um schnelle Bewegungen einzufangen. Umfangreiche Experimente zeigen, dass VidTwin eine hohe Kompressionsrate von 0,20% bei hoher Rekonstruktionsqualität (PSNR von 28,14 auf dem MCL-JCV-Datensatz) erreicht und in nachgelagerten generativen Aufgaben effizient und effektiv arbeitet. Darüber hinaus zeigt unser Modell Erklärbarkeit und Skalierbarkeit und ebnet den Weg für zukünftige Forschung im Bereich der latenten Repräsentation und Generierung von Videos. Unser Code wurde unter https://github.com/microsoft/VidTok/tree/main/vidtwin veröffentlicht.
English
Recent advancements in video autoencoders (Video AEs) have significantly
improved the quality and efficiency of video generation. In this paper, we
propose a novel and compact video autoencoder, VidTwin, that decouples video
into two distinct latent spaces: Structure latent vectors, which capture
overall content and global movement, and Dynamics latent vectors, which
represent fine-grained details and rapid movements. Specifically, our approach
leverages an Encoder-Decoder backbone, augmented with two submodules for
extracting these latent spaces, respectively. The first submodule employs a
Q-Former to extract low-frequency motion trends, followed by downsampling
blocks to remove redundant content details. The second averages the latent
vectors along the spatial dimension to capture rapid motion. Extensive
experiments show that VidTwin achieves a high compression rate of 0.20% with
high reconstruction quality (PSNR of 28.14 on the MCL-JCV dataset), and
performs efficiently and effectively in downstream generative tasks. Moreover,
our model demonstrates explainability and scalability, paving the way for
future research in video latent representation and generation. Our code has
been released at https://github.com/microsoft/VidTok/tree/main/vidtwin.Summary
AI-Generated Summary