VidTwin: Video VAE met Ontkoppelde Structuur en Dynamiek
VidTwin: Video VAE with Decoupled Structure and Dynamics
December 23, 2024
Auteurs: Yuchi Wang, Junliang Guo, Xinyi Xie, Tianyu He, Xu Sun, Jiang Bian
cs.AI
Samenvatting
Recente ontwikkelingen op het gebied van video-autoencoders (Video AEs) hebben aanzienlijk bijgedragen aan de kwaliteit en efficiëntie van videogeneratie. In dit artikel stellen we een nieuw en compact video-auto-encoder voor, genaamd VidTwin, die video opsplitst in twee afzonderlijke latente ruimtes: Structuur latente vectoren, die de algehele inhoud en globale beweging vastleggen, en Dynamiek latente vectoren, die fijne details en snelle bewegingen vertegenwoordigen. Specifiek maakt onze benadering gebruik van een Encoder-Decoder ruggengraat, aangevuld met twee submodules voor het extraheren van deze latente ruimtes, respectievelijk. De eerste submodule maakt gebruik van een Q-Former om lage frequentie bewegingstrends te extraheren, gevolgd door downsampling blokken om overbodige inhoudsdetails te verwijderen. De tweede module berekent het gemiddelde van de latente vectoren langs de ruimtelijke dimensie om snelle beweging vast te leggen. Uitgebreide experimenten tonen aan dat VidTwin een hoge compressiesnelheid van 0,20% behaalt met een hoge reconstructiekwaliteit (PSNR van 28,14 op de MCL-JCV dataset), en efficiënt en effectief presteert in daaropvolgende generatieve taken. Bovendien toont ons model verklaarbaarheid en schaalbaarheid, wat de weg vrijmaakt voor toekomstig onderzoek naar video latente representatie en generatie. Onze code is beschikbaar op https://github.com/microsoft/VidTok/tree/main/vidtwin.
English
Recent advancements in video autoencoders (Video AEs) have significantly
improved the quality and efficiency of video generation. In this paper, we
propose a novel and compact video autoencoder, VidTwin, that decouples video
into two distinct latent spaces: Structure latent vectors, which capture
overall content and global movement, and Dynamics latent vectors, which
represent fine-grained details and rapid movements. Specifically, our approach
leverages an Encoder-Decoder backbone, augmented with two submodules for
extracting these latent spaces, respectively. The first submodule employs a
Q-Former to extract low-frequency motion trends, followed by downsampling
blocks to remove redundant content details. The second averages the latent
vectors along the spatial dimension to capture rapid motion. Extensive
experiments show that VidTwin achieves a high compression rate of 0.20% with
high reconstruction quality (PSNR of 28.14 on the MCL-JCV dataset), and
performs efficiently and effectively in downstream generative tasks. Moreover,
our model demonstrates explainability and scalability, paving the way for
future research in video latent representation and generation. Our code has
been released at https://github.com/microsoft/VidTok/tree/main/vidtwin.