ChatPaper.aiChatPaper

Adaptieve 1D Videodiffusie Auto-encoder

Adaptive 1D Video Diffusion Autoencoder

February 4, 2026
Auteurs: Yao Teng, Minxuan Lin, Xian Liu, Shuai Wang, Xiao Yang, Xihui Liu
cs.AI

Samenvatting

Recente videogeneratiemodellen zijn grotendeels afhankelijk van video-auto-encoders die videos in de pixelruimte comprimeren tot latente representaties. Bestaande video-auto-encoders kampen echter met drie belangrijke beperkingen: (1) compressie met een vaste snelheid die tokens verspilt bij eenvoudige videos, (2) inflexibele CNN-architecturen die modellering van latente representaties met variabele lengte verhinderen, en (3) deterministische decoders die moeite hebben om de juiste details te herstellen uit gecomprimeerde latente representaties. Om deze problemen aan te pakken, stellen wij One-Dimensional Diffusion Video Autoencoder (One-DVA) voor, een transformer-gebaseerd raamwerk voor adaptieve 1D-codering en diffusiegebaseerde decodering. De encoder gebruikt query-gebaseerde vision transformers om spatiotemporele kenmerken te extraheren en latente representaties te produceren, terwijl een mechanisme voor dropout met variabele lengte de latente lengte dynamisch aanpast. De decoder is een diffusie-transformer in de pixelruimte die videos reconstrueert met de latente representaties als invoervoorwaarden. Met een tweefasentrainingsstrategie bereikt One-DVA een vergelijkbare prestaties als 3D-CNN VAEs op reconstructiemetrieken bij identieke compressieverhoudingen. Belangrijker is dat het adaptieve compressie ondersteunt en dus hogere compressieverhoudingen kan bereiken. Om latente generatie in downstreamtaken beter te ondersteunen, regulariseren we verder de latente verdeling van One-DVA voor generatief modelleren en fine-tunen we de decoder om artefacten veroorzaakt door het generatieproces te verminderen.
English
Recent video generation models largely rely on video autoencoders that compress pixel-space videos into latent representations. However, existing video autoencoders suffer from three major limitations: (1) fixed-rate compression that wastes tokens on simple videos, (2) inflexible CNN architectures that prevent variable-length latent modeling, and (3) deterministic decoders that struggle to recover appropriate details from compressed latents. To address these issues, we propose One-Dimensional Diffusion Video Autoencoder (One-DVA), a transformer-based framework for adaptive 1D encoding and diffusion-based decoding. The encoder employs query-based vision transformers to extract spatiotemporal features and produce latent representations, while a variable-length dropout mechanism dynamically adjusts the latent length. The decoder is a pixel-space diffusion transformer that reconstructs videos with the latents as input conditions. With a two-stage training strategy, One-DVA achieves performance comparable to 3D-CNN VAEs on reconstruction metrics at identical compression ratios. More importantly, it supports adaptive compression and thus can achieve higher compression ratios. To better support downstream latent generation, we further regularize the One-DVA latent distribution for generative modeling and fine-tune its decoder to mitigate artifacts caused by the generation process.
PDF13February 7, 2026