適応型1次元ビデオ拡散オートエンコーダ
Adaptive 1D Video Diffusion Autoencoder
February 4, 2026
著者: Yao Teng, Minxuan Lin, Xian Liu, Shuai Wang, Xiao Yang, Xihui Liu
cs.AI
要旨
近年のビデオ生成モデルは、画素空間のビデオを潜在表現に圧縮するビデオオートエンコーダに大きく依存している。しかし、既存のビデオオートエンコーダには、(1)単純なビデオにおいてトークンを浪費する固定レート圧縮、(2)可変長の潜在モデリングを妨げる非柔軟なCNNアーキテクチャ、(3)圧縮された潜在から適切な詳細を復元するのが困難な決定論的デコーダ、という3つの主要な課題がある。これらの問題を解決するため、我々は適応的1次元符号化と拡散ベース復号を可能にするトランスフォーマーベースのフレームワークであるOne-Dimensional Diffusion Video Autoencoder (One-DVA)を提案する。エンコーダはクエリベースのVision Transformerを用いて時空間特徴を抽出し潜在表現を生成し、可変長ドロップアウト機構が潜在長を動的に調整する。デコーダは画素空間のDiffusion Transformerであり、潜在を条件入力としてビデオを再構築する。2段階の学習戦略により、One-DVAは同一圧縮率において再構成指標で3D-CNN VAEに匹敵する性能を達成する。さらに重要なのは、適応的圧縮をサポートすることでより高い圧縮率を実現できる点である。下流の潜在生成タスクをより良く支援するため、我々は生成モデリング向けにOne-DVAの潜在分布を正則化し、生成プロセスに起因するアーティファクトを軽減するためにデコーダをファインチューニングする。
English
Recent video generation models largely rely on video autoencoders that compress pixel-space videos into latent representations. However, existing video autoencoders suffer from three major limitations: (1) fixed-rate compression that wastes tokens on simple videos, (2) inflexible CNN architectures that prevent variable-length latent modeling, and (3) deterministic decoders that struggle to recover appropriate details from compressed latents. To address these issues, we propose One-Dimensional Diffusion Video Autoencoder (One-DVA), a transformer-based framework for adaptive 1D encoding and diffusion-based decoding. The encoder employs query-based vision transformers to extract spatiotemporal features and produce latent representations, while a variable-length dropout mechanism dynamically adjusts the latent length. The decoder is a pixel-space diffusion transformer that reconstructs videos with the latents as input conditions. With a two-stage training strategy, One-DVA achieves performance comparable to 3D-CNN VAEs on reconstruction metrics at identical compression ratios. More importantly, it supports adaptive compression and thus can achieve higher compression ratios. To better support downstream latent generation, we further regularize the One-DVA latent distribution for generative modeling and fine-tune its decoder to mitigate artifacts caused by the generation process.