ChatPaper.aiChatPaper

DC-VideoGen : Génération efficace de vidéos avec un autoencodeur vidéo à compression profonde

DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder

September 29, 2025
papers.authors: Junyu Chen, Wenkun He, Yuchao Gu, Yuyang Zhao, Jincheng Yu, Junsong Chen, Dongyun Zou, Yujun Lin, Zhekai Zhang, Muyang Li, Haocheng Xi, Ligeng Zhu, Enze Xie, Song Han, Han Cai
cs.AI

papers.abstract

Nous présentons DC-VideoGen, un cadre d’accélération post-entraînement pour la génération efficace de vidéos. DC-VideoGen peut être appliqué à tout modèle de diffusion vidéo pré-entraîné, améliorant l’efficacité en l’adaptant à un espace latent de compression profonde grâce à un réglage fin léger. Le cadre repose sur deux innovations clés : (i) un Autoencodeur Vidéo à Compression Profonde doté d’une conception temporelle chunk-causale inédite, permettant une compression spatiale de 32x/64x et temporelle de 4x tout en préservant la qualité de reconstruction et la généralisation à des vidéos plus longues ; et (ii) AE-Adapt-V, une stratégie d’adaptation robuste qui permet un transfert rapide et stable des modèles pré-entraînés dans le nouvel espace latent. L’adaptation du modèle Wan-2.1-14B pré-entraîné avec DC-VideoGen ne nécessite que 10 jours GPU sur le GPU NVIDIA H100. Les modèles accélérés atteignent une latence d’inférence jusqu’à 14,8 fois inférieure à celle de leurs homologues de base sans compromettre la qualité, et permettent en outre la génération de vidéos en 2160x3840 sur un seul GPU. Code : https://github.com/dc-ai-projects/DC-VideoGen.
English
We introduce DC-VideoGen, a post-training acceleration framework for efficient video generation. DC-VideoGen can be applied to any pre-trained video diffusion model, improving efficiency by adapting it to a deep compression latent space with lightweight fine-tuning. The framework builds on two key innovations: (i) a Deep Compression Video Autoencoder with a novel chunk-causal temporal design that achieves 32x/64x spatial and 4x temporal compression while preserving reconstruction quality and generalization to longer videos; and (ii) AE-Adapt-V, a robust adaptation strategy that enables rapid and stable transfer of pre-trained models into the new latent space. Adapting the pre-trained Wan-2.1-14B model with DC-VideoGen requires only 10 GPU days on the NVIDIA H100 GPU. The accelerated models achieve up to 14.8x lower inference latency than their base counterparts without compromising quality, and further enable 2160x3840 video generation on a single GPU. Code: https://github.com/dc-ai-projects/DC-VideoGen.
PDF191October 1, 2025