Adaptives 1D-Video-Diffusions-Autoencoder
Adaptive 1D Video Diffusion Autoencoder
February 4, 2026
papers.authors: Yao Teng, Minxuan Lin, Xian Liu, Shuai Wang, Xiao Yang, Xihui Liu
cs.AI
papers.abstract
Aktuelle Videogenerierungsmodelle basieren weitgehend auf Video-Autoencodern, die Pixelraum-Videos in latente Repräsentationen komprimieren. Bestehende Video-Autoencoder leiden jedoch unter drei Hauptproblemen: (1) Festraten-Kompression, die bei einfachen Videos Token verschwendet, (2) unflexible CNN-Architekturen, die eine Modellierung latenter Repräsentationen variabler Länge verhindern, und (3) deterministische Decoder, die Schwierigkeiten haben, angemessene Details aus komprimierten latenten Repräsentationen wiederherzustellen. Zur Lösung dieser Probleme schlagen wir One-Dimensional Diffusion Video Autoencoder (One-DVA) vor, ein transformerbasiertes Framework für adaptive 1D-Codierung und diffusionsbasierte Decodierung. Der Encoder verwendet Query-basierte Vision-Transformer zur Extraktion spatio-temporaler Merkmale und Erzeugung latenter Repräsentationen, während ein Mechanismus mit variabler Länge und Dropout die latente Länge dynamisch anpasst. Der Decoder ist ein Pixelraum-Diffusion-Transformer, der Videos unter Verwendung der latenten Repräsentationen als Eingabebedingungen rekonstruiert. Mit einer Zwei-Phasen-Trainingsstrategie erreicht One-DVA bei identischen Kompressionsraten vergleichbare Leistung wie 3D-CNN-VAEs in Rekonstruktionsmetriken. Noch wichtiger ist, dass es adaptive Kompression unterstützt und somit höhere Kompressionsraten erreichen kann. Um nachgelagerte latente Generierung besser zu unterstützen, regularisieren wir weiterhin die One-DVA-Latenzverteilung für generative Modellierung und feinabstimmen seines Decoders, um durch den Generierungsprozess verursachte Artefakte zu reduzieren.
English
Recent video generation models largely rely on video autoencoders that compress pixel-space videos into latent representations. However, existing video autoencoders suffer from three major limitations: (1) fixed-rate compression that wastes tokens on simple videos, (2) inflexible CNN architectures that prevent variable-length latent modeling, and (3) deterministic decoders that struggle to recover appropriate details from compressed latents. To address these issues, we propose One-Dimensional Diffusion Video Autoencoder (One-DVA), a transformer-based framework for adaptive 1D encoding and diffusion-based decoding. The encoder employs query-based vision transformers to extract spatiotemporal features and produce latent representations, while a variable-length dropout mechanism dynamically adjusts the latent length. The decoder is a pixel-space diffusion transformer that reconstructs videos with the latents as input conditions. With a two-stage training strategy, One-DVA achieves performance comparable to 3D-CNN VAEs on reconstruction metrics at identical compression ratios. More importantly, it supports adaptive compression and thus can achieve higher compression ratios. To better support downstream latent generation, we further regularize the One-DVA latent distribution for generative modeling and fine-tune its decoder to mitigate artifacts caused by the generation process.