Адаптивный одномерный видеодиффузионный автоэнкодер
Adaptive 1D Video Diffusion Autoencoder
February 4, 2026
Авторы: Yao Teng, Minxuan Lin, Xian Liu, Shuai Wang, Xiao Yang, Xihui Liu
cs.AI
Аннотация
Современные модели генерации видео в значительной степени опираются на видеоавтокодировщики, которые сжимают видео в пиксельном пространстве до латентных представлений. Однако существующие видеоавтокодировщики страдают от трёх основных ограничений: (1) сжатие с фиксированной скоростью, которое тратит токены на простые видео; (2) негибкие архитектуры CNN, которые препятствуют моделированию латентных представлений переменной длины; и (3) детерминированные декодеры, которые плохо восстанавливают соответствующие детали из сжатых латентных представлений. Для решения этих проблем мы предлагаем Одномерный Диффузионный Видеоавтокодировщик (One-DVA) — трансформерную архитектуру для адаптивного одномерного кодирования и диффузионного декодирования. Кодировщик использует Vision Transformer на основе запросов для извлечения пространственно-временных признаков и генерации латентных представлений, в то время как механизм дропаута переменной длины динамически регулирует длину латентного представления. Декодер представляет собой диффузионный трансформер в пиксельном пространстве, который восстанавливает видео, используя латентные представления в качестве входных условий. Благодаря двухэтапной стратегии обучения One-DVA демонстрирует производительность, сопоставимую с 3D-CNN VAE по метрикам реконструкции при одинаковых коэффициентах сжатия. Что более важно, он поддерживает адаптивное сжатие и, следовательно, может достигать более высоких коэффициентов сжатия. Для лучшей поддержки последующей генерации в латентном пространстве мы дополнительно регуляризуем распределение латентных представлений One-DVA для генеративного моделирования и дообучаем его декодер, чтобы уменьшить артефакты, вызванные процессом генерации.
English
Recent video generation models largely rely on video autoencoders that compress pixel-space videos into latent representations. However, existing video autoencoders suffer from three major limitations: (1) fixed-rate compression that wastes tokens on simple videos, (2) inflexible CNN architectures that prevent variable-length latent modeling, and (3) deterministic decoders that struggle to recover appropriate details from compressed latents. To address these issues, we propose One-Dimensional Diffusion Video Autoencoder (One-DVA), a transformer-based framework for adaptive 1D encoding and diffusion-based decoding. The encoder employs query-based vision transformers to extract spatiotemporal features and produce latent representations, while a variable-length dropout mechanism dynamically adjusts the latent length. The decoder is a pixel-space diffusion transformer that reconstructs videos with the latents as input conditions. With a two-stage training strategy, One-DVA achieves performance comparable to 3D-CNN VAEs on reconstruction metrics at identical compression ratios. More importantly, it supports adaptive compression and thus can achieve higher compression ratios. To better support downstream latent generation, we further regularize the One-DVA latent distribution for generative modeling and fine-tune its decoder to mitigate artifacts caused by the generation process.