DC-VideoGen: Generazione Efficiente di Video con Autoencoder Video a Compressione Profonda
DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder
September 29, 2025
Autori: Junyu Chen, Wenkun He, Yuchao Gu, Yuyang Zhao, Jincheng Yu, Junsong Chen, Dongyun Zou, Yujun Lin, Zhekai Zhang, Muyang Li, Haocheng Xi, Ligeng Zhu, Enze Xie, Song Han, Han Cai
cs.AI
Abstract
Introduciamo DC-VideoGen, un framework di accelerazione post-addestramento per la generazione efficiente di video. DC-VideoGen può essere applicato a qualsiasi modello di diffusione video pre-addestrato, migliorandone l'efficienza adattandolo a uno spazio latente di compressione profonda con un fine-tuning leggero. Il framework si basa su due innovazioni chiave: (i) un Autoencoder Video a Compressione Profonda con un design temporale chunk-causale innovativo che raggiunge una compressione spaziale di 32x/64x e temporale di 4x, preservando la qualità della ricostruzione e la generalizzazione a video più lunghi; e (ii) AE-Adapt-V, una strategia di adattamento robusta che consente un trasferimento rapido e stabile dei modelli pre-addestrati nel nuovo spazio latente. L'adattamento del modello Wan-2.1-14B pre-addestrato con DC-VideoGen richiede solo 10 giorni di GPU su una GPU NVIDIA H100. I modelli accelerati raggiungono una latenza di inferenza fino a 14,8 volte inferiore rispetto alle loro controparti base senza compromettere la qualità, e consentono ulteriormente la generazione di video 2160x3840 su una singola GPU. Codice: https://github.com/dc-ai-projects/DC-VideoGen.
English
We introduce DC-VideoGen, a post-training acceleration framework for
efficient video generation. DC-VideoGen can be applied to any pre-trained video
diffusion model, improving efficiency by adapting it to a deep compression
latent space with lightweight fine-tuning. The framework builds on two key
innovations: (i) a Deep Compression Video Autoencoder with a novel chunk-causal
temporal design that achieves 32x/64x spatial and 4x temporal compression while
preserving reconstruction quality and generalization to longer videos; and (ii)
AE-Adapt-V, a robust adaptation strategy that enables rapid and stable transfer
of pre-trained models into the new latent space. Adapting the pre-trained
Wan-2.1-14B model with DC-VideoGen requires only 10 GPU days on the NVIDIA H100
GPU. The accelerated models achieve up to 14.8x lower inference latency than
their base counterparts without compromising quality, and further enable
2160x3840 video generation on a single GPU. Code:
https://github.com/dc-ai-projects/DC-VideoGen.