ChatPaper.aiChatPaper

Autoencoder de Difusão de Vídeo 1D Adaptativo

Adaptive 1D Video Diffusion Autoencoder

February 4, 2026
Autores: Yao Teng, Minxuan Lin, Xian Liu, Shuai Wang, Xiao Yang, Xihui Liu
cs.AI

Resumo

Os modelos recentes de geração de vídeo dependem amplamente de autoencoders de vídeo que comprimem vídeos no espaço de pixels em representações latentes. No entanto, os autoencoders de vídeo existentes apresentam três limitações principais: (1) compressão de taxa fixa que desperdiça tokens em vídeos simples, (2) arquiteturas inflexíveis de CNN que impedem a modelagem latente de comprimento variável, e (3) decodificadores determinísticos que têm dificuldade em recuperar detalhes apropriados a partir de latentes comprimidos. Para resolver essas questões, propomos o One-Dimensional Diffusion Video Autoencoder (One-DVA), uma estrutura baseada em transformers para codificação 1D adaptativa e decodificação baseada em difusão. O codificador emprega vision transformers baseados em consultas para extrair características espaço-temporais e produzir representações latentes, enquanto um mecanismo de dropout de comprimento variável ajusta dinamicamente o comprimento latente. O decodificador é um diffusion transformer no espaço de pixels que reconstrói vídeos usando os latentes como condições de entrada. Com uma estratégia de treinamento em dois estágios, o One-DVA alcança desempenho comparável aos VAEs 3D-CNN em métricas de reconstrução em taxas de compressão idênticas. Mais importante ainda, ele suporta compressão adaptativa e, portanto, pode alcançar maiores taxas de compressão. Para melhor suportar a geração latente downstream, regularizamos ainda mais a distribuição latente do One-DVA para modelagem generativa e ajustamos finamente seu decodificador para mitigar artefatos causados pelo processo de geração.
English
Recent video generation models largely rely on video autoencoders that compress pixel-space videos into latent representations. However, existing video autoencoders suffer from three major limitations: (1) fixed-rate compression that wastes tokens on simple videos, (2) inflexible CNN architectures that prevent variable-length latent modeling, and (3) deterministic decoders that struggle to recover appropriate details from compressed latents. To address these issues, we propose One-Dimensional Diffusion Video Autoencoder (One-DVA), a transformer-based framework for adaptive 1D encoding and diffusion-based decoding. The encoder employs query-based vision transformers to extract spatiotemporal features and produce latent representations, while a variable-length dropout mechanism dynamically adjusts the latent length. The decoder is a pixel-space diffusion transformer that reconstructs videos with the latents as input conditions. With a two-stage training strategy, One-DVA achieves performance comparable to 3D-CNN VAEs on reconstruction metrics at identical compression ratios. More importantly, it supports adaptive compression and thus can achieve higher compression ratios. To better support downstream latent generation, we further regularize the One-DVA latent distribution for generative modeling and fine-tune its decoder to mitigate artifacts caused by the generation process.
PDF13February 7, 2026