ChatPaper.aiChatPaper

적응형 1D 비디오 확산 오토인코더

Adaptive 1D Video Diffusion Autoencoder

February 4, 2026
저자: Yao Teng, Minxuan Lin, Xian Liu, Shuai Wang, Xiao Yang, Xihui Liu
cs.AI

초록

최근 비디오 생성 모델은 픽셀 공간의 비디오를 잠재 표현으로 압축하는 비디오 오토인코더에 크게 의존하고 있습니다. 그러나 기존 비디오 오토인코더는 세 가지 주요 한계점을 가지고 있습니다: (1) 단순한 비디오에도 토큰을 낭비하는 고정 비율 압축, (2) 가변 길이 잠재 모델링을 방해하는 경직된 CNN 아키텍처, (3) 압축된 잠재 표현으로부터 적절한 디테일을 복원하는 데 어려움을 겪는 결정론적 디코더. 이러한 문제를 해결하기 위해 우리는 적응형 1D 인코딩과 확산 기반 디코딩을 위한 트랜스포머 기반 프레임워크인 1D 확산 비디오 오토인코더(One-DVA)를 제안합니다. 인코더는 쿼리 기반 비전 트랜스포머를 활용하여 시공간 특징을 추출하고 잠재 표현을 생성하는 반면, 가변 길이 드롭아웃 메커니즘은 잠재 길이를 동적으로 조정합니다. 디코더는 잠재 표현을 입력 조건으로 사용하여 비디오를 재구성하는 픽셀 공간 확산 트랜스포머입니다. 2단계 학습 전략을 통해 One-DVA는 동일한 압축률에서 재구성 지표 측면에서 3D-CNN VAE와 비슷한 성능을 달성합니다. 더 중요한 것은 적응형 압축을 지원하므로 더 높은 압축률을 달성할 수 있다는 점입니다. 다운스트림 잠재 생성 작업을 더 잘 지원하기 위해, 우리는 생성 모델링을 위해 One-DVA 잠재 분포를 추가로 정규화하고 생성 과정에서 발생하는 아티팩트를 완화하기 위해 해당 디코더를 미세 조정합니다.
English
Recent video generation models largely rely on video autoencoders that compress pixel-space videos into latent representations. However, existing video autoencoders suffer from three major limitations: (1) fixed-rate compression that wastes tokens on simple videos, (2) inflexible CNN architectures that prevent variable-length latent modeling, and (3) deterministic decoders that struggle to recover appropriate details from compressed latents. To address these issues, we propose One-Dimensional Diffusion Video Autoencoder (One-DVA), a transformer-based framework for adaptive 1D encoding and diffusion-based decoding. The encoder employs query-based vision transformers to extract spatiotemporal features and produce latent representations, while a variable-length dropout mechanism dynamically adjusts the latent length. The decoder is a pixel-space diffusion transformer that reconstructs videos with the latents as input conditions. With a two-stage training strategy, One-DVA achieves performance comparable to 3D-CNN VAEs on reconstruction metrics at identical compression ratios. More importantly, it supports adaptive compression and thus can achieve higher compression ratios. To better support downstream latent generation, we further regularize the One-DVA latent distribution for generative modeling and fine-tune its decoder to mitigate artifacts caused by the generation process.
PDF12February 7, 2026