DC-Gen : Accélération post-entraînement de la diffusion par compression profonde de l'espace latent
DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed Latent Space
September 29, 2025
papers.authors: Wenkun He, Yuchao Gu, Junyu Chen, Dongyun Zou, Yujun Lin, Zhekai Zhang, Haocheng Xi, Muyang Li, Ligeng Zhu, Jincheng Yu, Junsong Chen, Enze Xie, Song Han, Han Cai
cs.AI
papers.abstract
Les modèles de diffusion texte-image existants excellent dans la génération d'images de haute qualité, mais rencontrent des défis d'efficacité significatifs lorsqu'ils sont mis à l'échelle pour des résolutions élevées, comme la génération d'images 4K. Bien que des recherches antérieures aient accéléré les modèles de diffusion sous divers aspects, elles traitent rarement la redondance inhérente à l'espace latent. Pour combler cette lacune, cet article présente DC-Gen, un cadre général qui accélère les modèles de diffusion texte-image en exploitant un espace latent profondément compressé. Plutôt qu'une approche coûteuse de formation à partir de zéro, DC-Gen utilise un pipeline efficace post-formation pour préserver la qualité du modèle de base. Un défi clé dans ce paradigme est l'écart de représentation entre l'espace latent du modèle de base et un espace latent profondément compressé, ce qui peut entraîner une instabilité lors de l'ajustement fin direct. Pour surmonter cela, DC-Gen comble d'abord l'écart de représentation avec un entraînement léger d'alignement des embeddings. Une fois les embeddings latents alignés, seule une petite quantité d'ajustement fin LoRA est nécessaire pour débloquer la qualité de génération inhérente du modèle de base. Nous vérifions l'efficacité de DC-Gen sur SANA et FLUX.1-Krea. Les modèles résultants DC-Gen-SANA et DC-Gen-FLUX atteignent une qualité comparable à leurs modèles de base mais avec une accélération significative. Plus précisément, DC-Gen-FLUX réduit la latence de la génération d'images 4K par 53x sur le GPU NVIDIA H100. Lorsqu'il est combiné avec NVFP4 SVDQuant, DC-Gen-FLUX génère une image 4K en seulement 3,5 secondes sur un seul GPU NVIDIA 5090, atteignant une réduction totale de latence de 138x par rapport au modèle de base FLUX.1-Krea. Code : https://github.com/dc-ai-projects/DC-Gen.
English
Existing text-to-image diffusion models excel at generating high-quality
images, but face significant efficiency challenges when scaled to high
resolutions, like 4K image generation. While previous research accelerates
diffusion models in various aspects, it seldom handles the inherent redundancy
within the latent space. To bridge this gap, this paper introduces DC-Gen, a
general framework that accelerates text-to-image diffusion models by leveraging
a deeply compressed latent space. Rather than a costly training-from-scratch
approach, DC-Gen uses an efficient post-training pipeline to preserve the
quality of the base model. A key challenge in this paradigm is the
representation gap between the base model's latent space and a deeply
compressed latent space, which can lead to instability during direct
fine-tuning. To overcome this, DC-Gen first bridges the representation gap with
a lightweight embedding alignment training. Once the latent embeddings are
aligned, only a small amount of LoRA fine-tuning is needed to unlock the base
model's inherent generation quality. We verify DC-Gen's effectiveness on SANA
and FLUX.1-Krea. The resulting DC-Gen-SANA and DC-Gen-FLUX models achieve
quality comparable to their base models but with a significant speedup.
Specifically, DC-Gen-FLUX reduces the latency of 4K image generation by 53x on
the NVIDIA H100 GPU. When combined with NVFP4 SVDQuant, DC-Gen-FLUX generates a
4K image in just 3.5 seconds on a single NVIDIA 5090 GPU, achieving a total
latency reduction of 138x compared to the base FLUX.1-Krea model. Code:
https://github.com/dc-ai-projects/DC-Gen.