DC-Gen: 深層圧縮潜在空間を用いたポストトレーニング拡散加速
DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed Latent Space
September 29, 2025
著者: Wenkun He, Yuchao Gu, Junyu Chen, Dongyun Zou, Yujun Lin, Zhekai Zhang, Haocheng Xi, Muyang Li, Ligeng Zhu, Jincheng Yu, Junsong Chen, Enze Xie, Song Han, Han Cai
cs.AI
要旨
既存のテキストから画像を生成する拡散モデルは、高品質な画像生成に優れていますが、4K画像生成のような高解像度にスケールする際には、効率性の面で大きな課題に直面しています。これまでの研究では、拡散モデルの高速化を様々な側面から進めてきましたが、潜在空間内の本質的な冗長性を扱うことはほとんどありませんでした。このギャップを埋めるため、本論文では、深く圧縮された潜在空間を活用してテキストから画像を生成する拡散モデルを高速化する汎用フレームワークであるDC-Genを提案します。DC-Genは、ゼロからモデルを訓練するというコストのかかるアプローチではなく、効率的なポストトレーニングパイプラインを使用して、ベースモデルの品質を維持します。このパラダイムにおける主要な課題は、ベースモデルの潜在空間と深く圧縮された潜在空間の間の表現ギャップであり、これは直接的なファインチューニング中に不安定性を引き起こす可能性があります。これを克服するため、DC-Genはまず、軽量な埋め込みアライメントトレーニングによって表現ギャップを橋渡しします。潜在埋め込みがアライメントされた後は、少量のLoRAファインチューニングを行うだけで、ベースモデルの本質的な生成品質を引き出すことができます。DC-Genの有効性をSANAとFLUX.1-Kreaで検証しました。結果として得られたDC-Gen-SANAとDC-Gen-FLUXモデルは、ベースモデルと同等の品質を維持しつつ、大幅な高速化を実現しています。具体的には、DC-Gen-FLUXは、NVIDIA H100 GPU上で4K画像生成のレイテンシを53倍削減します。NVFP4 SVDQuantと組み合わせることで、DC-Gen-FLUXは単一のNVIDIA 5090 GPU上でわずか3.5秒で4K画像を生成し、ベースのFLUX.1-Kreaモデルと比較して総レイテンシを138倍削減します。コード: https://github.com/dc-ai-projects/DC-Gen.
English
Existing text-to-image diffusion models excel at generating high-quality
images, but face significant efficiency challenges when scaled to high
resolutions, like 4K image generation. While previous research accelerates
diffusion models in various aspects, it seldom handles the inherent redundancy
within the latent space. To bridge this gap, this paper introduces DC-Gen, a
general framework that accelerates text-to-image diffusion models by leveraging
a deeply compressed latent space. Rather than a costly training-from-scratch
approach, DC-Gen uses an efficient post-training pipeline to preserve the
quality of the base model. A key challenge in this paradigm is the
representation gap between the base model's latent space and a deeply
compressed latent space, which can lead to instability during direct
fine-tuning. To overcome this, DC-Gen first bridges the representation gap with
a lightweight embedding alignment training. Once the latent embeddings are
aligned, only a small amount of LoRA fine-tuning is needed to unlock the base
model's inherent generation quality. We verify DC-Gen's effectiveness on SANA
and FLUX.1-Krea. The resulting DC-Gen-SANA and DC-Gen-FLUX models achieve
quality comparable to their base models but with a significant speedup.
Specifically, DC-Gen-FLUX reduces the latency of 4K image generation by 53x on
the NVIDIA H100 GPU. When combined with NVFP4 SVDQuant, DC-Gen-FLUX generates a
4K image in just 3.5 seconds on a single NVIDIA 5090 GPU, achieving a total
latency reduction of 138x compared to the base FLUX.1-Krea model. Code:
https://github.com/dc-ai-projects/DC-Gen.