Codificatore-Decodificatore Video 1D Adattivo a Diffusione

Abstract

I recenti modelli di generazione video si basano principalmente su autoencoder video che comprimono i video nello spazio dei pixel in rappresentazioni latenti. Tuttavia, gli autoencoder video esistenti presentano tre limitazioni principali: (1) compressione a bitrate fisso che spreca token su video semplici, (2) architetture CNN inflessibili che impediscono la modellazione latente a lunghezza variabile, e (3) decoder deterministici che faticano a recuperare dettagli appropriati dai latent compressi. Per affrontare questi problemi, proponiamo One-Dimensional Diffusion Video Autoencoder (One-DVA), un framework basato su transformer per la codifica 1D adattativa e la decodifica basata su diffusione. L'encoder utilizza vision transformer basati su query per estrarre caratteristiche spaziotemporali e produrre rappresentazioni latenti, mentre un meccanismo di dropout a lunghezza variabile regola dinamicamente la lunghezza del latente. Il decoder è un diffusion transformer nello spazio dei pixel che ricostruisce i video utilizzando i latent come condizioni di input. Con una strategia di addestramento a due stadi, One-DVA raggiunge prestazioni comparabili ai VAE basati su 3D-CNN nelle metriche di ricostruzione a identici rapporti di compressione. Ancora più importante, supporta la compressione adattativa e può quindi raggiungere rapporti di compressione più elevati. Per supportare meglio la generazione latente a valle, regolarizziamo ulteriormente la distribuzione latente di One-DVA per la modellazione generativa e mettiamo a punto il suo decoder per mitigare gli artefatti causati dal processo di generazione.

English

Recent video generation models largely rely on video autoencoders that compress pixel-space videos into latent representations. However, existing video autoencoders suffer from three major limitations: (1) fixed-rate compression that wastes tokens on simple videos, (2) inflexible CNN architectures that prevent variable-length latent modeling, and (3) deterministic decoders that struggle to recover appropriate details from compressed latents. To address these issues, we propose One-Dimensional Diffusion Video Autoencoder (One-DVA), a transformer-based framework for adaptive 1D encoding and diffusion-based decoding. The encoder employs query-based vision transformers to extract spatiotemporal features and produce latent representations, while a variable-length dropout mechanism dynamically adjusts the latent length. The decoder is a pixel-space diffusion transformer that reconstructs videos with the latents as input conditions. With a two-stage training strategy, One-DVA achieves performance comparable to 3D-CNN VAEs on reconstruction metrics at identical compression ratios. More importantly, it supports adaptive compression and thus can achieve higher compression ratios. To better support downstream latent generation, we further regularize the One-DVA latent distribution for generative modeling and fine-tune its decoder to mitigate artifacts caused by the generation process.

Codificatore-Decodificatore Video 1D Adattivo a Diffusione

Adaptive 1D Video Diffusion Autoencoder

Abstract

Support