Autoencoder Difusivo de Video 1D Adaptativo
Adaptive 1D Video Diffusion Autoencoder
February 4, 2026
Autores: Yao Teng, Minxuan Lin, Xian Liu, Shuai Wang, Xiao Yang, Xihui Liu
cs.AI
Resumen
Los modelos recientes de generación de vídeo dependen en gran medida de autoencoders de vídeo que comprimen los vídeos en el espacio de píxeles en representaciones latentes. Sin embargo, los autoencoders de vídeo existentes adolecen de tres limitaciones principales: (1) compresión de velocidad fija que desperdicia tokens en vídeos simples, (2) arquitecturas CNN inflexibles que impiden el modelado latente de longitud variable, y (3) decodificadores deterministas que tienen dificultades para recuperar detalles apropiados a partir de latentes comprimidos. Para abordar estos problemas, proponemos One-Dimensional Diffusion Video Autoencoder (One-DVA), un marco basado en transformers para codificación 1D adaptativa y decodificación basada en difusión. El codificador emplea transformers de visión basados en consultas para extraer características espacio-temporales y producir representaciones latentes, mientras que un mecanismo de dropout de longitud variable ajusta dinámicamente la longitud latente. El decodificador es un transformer de difusión en el espacio de píxeles que reconstruye vídeos utilizando los latentes como condiciones de entrada. Con una estrategia de entrenamiento en dos etapas, One-DVA logra un rendimiento comparable al de los VAEs 3D-CNN en métricas de reconstrucción con idénticas tasas de compresión. Más importante aún, admite compresión adaptativa y, por lo tanto, puede alcanzar mayores tasas de compresión. Para respaldar mejor la generación latente aguas abajo, regularizamos adicionalmente la distribución latente de One-DVA para el modelado generativo y ajustamos su decodificador para mitigar los artefactos causados por el proceso de generación.
English
Recent video generation models largely rely on video autoencoders that compress pixel-space videos into latent representations. However, existing video autoencoders suffer from three major limitations: (1) fixed-rate compression that wastes tokens on simple videos, (2) inflexible CNN architectures that prevent variable-length latent modeling, and (3) deterministic decoders that struggle to recover appropriate details from compressed latents. To address these issues, we propose One-Dimensional Diffusion Video Autoencoder (One-DVA), a transformer-based framework for adaptive 1D encoding and diffusion-based decoding. The encoder employs query-based vision transformers to extract spatiotemporal features and produce latent representations, while a variable-length dropout mechanism dynamically adjusts the latent length. The decoder is a pixel-space diffusion transformer that reconstructs videos with the latents as input conditions. With a two-stage training strategy, One-DVA achieves performance comparable to 3D-CNN VAEs on reconstruction metrics at identical compression ratios. More importantly, it supports adaptive compression and thus can achieve higher compression ratios. To better support downstream latent generation, we further regularize the One-DVA latent distribution for generative modeling and fine-tune its decoder to mitigate artifacts caused by the generation process.