ChatPaper.aiChatPaper

Autoencodeur de Diffusion Vidéo 1D Adaptatif

Adaptive 1D Video Diffusion Autoencoder

February 4, 2026
papers.authors: Yao Teng, Minxuan Lin, Xian Liu, Shuai Wang, Xiao Yang, Xihui Liu
cs.AI

papers.abstract

Les modèles récents de génération vidéo reposent largement sur des autoencodeurs vidéo qui compressent les vidéos en espace pixel en représentations latentes. Cependant, les autoencodeurs vidéo existants présentent trois limitations majeures : (1) une compression à débit fixe qui gaspille des tokens sur des vidéos simples, (2) des architectures CNN inflexibles empêchant une modélisation latente à longueur variable, et (3) des décodeurs déterministes peinant à restaurer les détails appropriés à partir des latentes compressées. Pour résoudre ces problèmes, nous proposons One-Dimensional Diffusion Video Autoencoder (One-DVA), un framework basé sur des transformers pour l'encodage 1D adaptatif et le décodage par diffusion. L'encodeur utilise des vision transformers à base de requêtes pour extraire les caractéristiques spatiotemporelles et produire des représentations latentes, tandis qu'un mécanisme d'abandon à longueur variable ajuste dynamiquement la longueur latente. Le décodeur est un transformer de diffusion en espace pixel qui reconstruit les vidéos avec les latentes comme conditions d'entrée. Avec une stratégie d'entraînement en deux étapes, One-DVA atteint des performances comparables aux VAE 3D-CNN sur les métriques de reconstruction à taux de compression identiques. Plus important encore, il prend en charge la compression adaptative et peut ainsi atteindre des taux de compression plus élevés. Pour mieux supporter la génération latente en aval, nous régularisons davantage la distribution latente de One-DVA pour la modélisation générative et affinons son décodeur pour atténuer les artefacts causés par le processus de génération.
English
Recent video generation models largely rely on video autoencoders that compress pixel-space videos into latent representations. However, existing video autoencoders suffer from three major limitations: (1) fixed-rate compression that wastes tokens on simple videos, (2) inflexible CNN architectures that prevent variable-length latent modeling, and (3) deterministic decoders that struggle to recover appropriate details from compressed latents. To address these issues, we propose One-Dimensional Diffusion Video Autoencoder (One-DVA), a transformer-based framework for adaptive 1D encoding and diffusion-based decoding. The encoder employs query-based vision transformers to extract spatiotemporal features and produce latent representations, while a variable-length dropout mechanism dynamically adjusts the latent length. The decoder is a pixel-space diffusion transformer that reconstructs videos with the latents as input conditions. With a two-stage training strategy, One-DVA achieves performance comparable to 3D-CNN VAEs on reconstruction metrics at identical compression ratios. More importantly, it supports adaptive compression and thus can achieve higher compression ratios. To better support downstream latent generation, we further regularize the One-DVA latent distribution for generative modeling and fine-tune its decoder to mitigate artifacts caused by the generation process.
PDF12February 7, 2026