DC-Gen: Post-Training-Beschleunigung von Diffusion durch stark komprimierten latenten Raum
DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed Latent Space
September 29, 2025
papers.authors: Wenkun He, Yuchao Gu, Junyu Chen, Dongyun Zou, Yujun Lin, Zhekai Zhang, Haocheng Xi, Muyang Li, Ligeng Zhu, Jincheng Yu, Junsong Chen, Enze Xie, Song Han, Han Cai
cs.AI
papers.abstract
Bestehende Text-zu-Bild-Diffusionsmodelle zeichnen sich durch die Erzeugung hochwertiger Bilder aus, stoßen jedoch bei der Skalierung auf hohe Auflösungen, wie beispielsweise 4K-Bildgenerierung, auf erhebliche Effizienzprobleme. Während frühere Forschungen Diffusionsmodelle in verschiedenen Aspekten beschleunigt haben, wird die inhärente Redundanz im latenten Raum selten behandelt. Um diese Lücke zu schließen, stellt dieses Papier DC-Gen vor, ein allgemeines Framework, das Text-zu-Bild-Diffusionsmodelle durch die Nutzung eines stark komprimierten latenten Raums beschleunigt. Anstatt eines kostspieligen Trainings-von-Grund-auf-Ansatzes verwendet DC-Gen eine effiziente Nachschulungs-Pipeline, um die Qualität des Basismodells zu bewahren. Eine zentrale Herausforderung in diesem Paradigma ist die Repräsentationslücke zwischen dem latenten Raum des Basismodells und einem stark komprimierten latenten Raum, die zu Instabilität während der direkten Feinabstimmung führen kann. Um dies zu überwinden, überbrückt DC-Gen zunächst die Repräsentationslücke mit einem leichtgewichtigen Embedding-Alignment-Training. Sobald die latenten Embeddings ausgerichtet sind, ist nur eine geringe Menge an LoRA-Feinabstimmung erforderlich, um die inhärente Generierungsqualität des Basismodells freizuschalten. Wir überprüfen die Wirksamkeit von DC-Gen anhand von SANA und FLUX.1-Krea. Die daraus resultierenden DC-Gen-SANA- und DC-Gen-FLUX-Modelle erreichen eine Qualität, die mit ihren Basismodellen vergleichbar ist, jedoch mit einer erheblichen Beschleunigung. Insbesondere reduziert DC-Gen-FLUX die Latenz der 4K-Bildgenerierung um das 53-fache auf der NVIDIA H100 GPU. In Kombination mit NVFP4 SVDQuant generiert DC-Gen-FLUX ein 4K-Bild in nur 3,5 Sekunden auf einer einzelnen NVIDIA 5090 GPU, was einer gesamten Latenzreduktion von 138x im Vergleich zum Basismodell FLUX.1-Krea entspricht. Code: https://github.com/dc-ai-projects/DC-Gen.
English
Existing text-to-image diffusion models excel at generating high-quality
images, but face significant efficiency challenges when scaled to high
resolutions, like 4K image generation. While previous research accelerates
diffusion models in various aspects, it seldom handles the inherent redundancy
within the latent space. To bridge this gap, this paper introduces DC-Gen, a
general framework that accelerates text-to-image diffusion models by leveraging
a deeply compressed latent space. Rather than a costly training-from-scratch
approach, DC-Gen uses an efficient post-training pipeline to preserve the
quality of the base model. A key challenge in this paradigm is the
representation gap between the base model's latent space and a deeply
compressed latent space, which can lead to instability during direct
fine-tuning. To overcome this, DC-Gen first bridges the representation gap with
a lightweight embedding alignment training. Once the latent embeddings are
aligned, only a small amount of LoRA fine-tuning is needed to unlock the base
model's inherent generation quality. We verify DC-Gen's effectiveness on SANA
and FLUX.1-Krea. The resulting DC-Gen-SANA and DC-Gen-FLUX models achieve
quality comparable to their base models but with a significant speedup.
Specifically, DC-Gen-FLUX reduces the latency of 4K image generation by 53x on
the NVIDIA H100 GPU. When combined with NVFP4 SVDQuant, DC-Gen-FLUX generates a
4K image in just 3.5 seconds on a single NVIDIA 5090 GPU, achieving a total
latency reduction of 138x compared to the base FLUX.1-Krea model. Code:
https://github.com/dc-ai-projects/DC-Gen.