DC-Gen: 심층 압축 잠재 공간을 통한 사후 학습 확산 가속화
DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed Latent Space
September 29, 2025
저자: Wenkun He, Yuchao Gu, Junyu Chen, Dongyun Zou, Yujun Lin, Zhekai Zhang, Haocheng Xi, Muyang Li, Ligeng Zhu, Jincheng Yu, Junsong Chen, Enze Xie, Song Han, Han Cai
cs.AI
초록
기존의 텍스트-이미지 확산 모델은 고품질 이미지 생성에 뛰어나지만, 4K 이미지 생성과 같은 고해상도로 확장할 때 상당한 효율성 문제에 직면합니다. 이전 연구들은 다양한 측면에서 확산 모델의 속도를 향상시켰지만, 잠재 공간 내의 본질적인 중복성을 다루는 경우는 드물었습니다. 이러한 격차를 해소하기 위해, 본 논문은 깊이 압축된 잠재 공간을 활용하여 텍스트-이미지 확산 모델의 속도를 높이는 일반적인 프레임워크인 DC-Gen을 소개합니다. 비용이 많이 드는 처음부터 학습하는 방식 대신, DC-Gen은 기본 모델의 품질을 유지하기 위해 효율적인 사후 학습 파이프라인을 사용합니다. 이 패러다임에서 주요한 과제는 기본 모델의 잠재 공간과 깊이 압축된 잠재 공간 간의 표현 격차로, 이는 직접 미세 조정 시 불안정성을 초래할 수 있습니다. 이를 극복하기 위해, DC-Gen은 먼저 경량 임베딩 정렬 학습을 통해 표현 격차를 해소합니다. 잠재 임베딩이 정렬되면, 기본 모델의 본질적인 생성 품질을 발휘하기 위해 소량의 LoRA 미세 조정만 필요합니다. 우리는 DC-Gen의 효과를 SANA와 FLUX.1-Krea에서 검증했습니다. 결과적으로 DC-Gen-SANA와 DC-Gen-FLUX 모델은 기본 모델과 비슷한 품질을 유지하면서도 상당한 속도 향상을 달성했습니다. 특히, DC-Gen-FLUX는 NVIDIA H100 GPU에서 4K 이미지 생성의 지연 시간을 53배 줄였습니다. NVFP4 SVDQuant와 결합했을 때, DC-Gen-FLUX는 단일 NVIDIA 5090 GPU에서 단 3.5초 만에 4K 이미지를 생성하며, 기본 FLUX.1-Krea 모델 대비 총 지연 시간을 138배 감소시켰습니다. 코드: https://github.com/dc-ai-projects/DC-Gen.
English
Existing text-to-image diffusion models excel at generating high-quality
images, but face significant efficiency challenges when scaled to high
resolutions, like 4K image generation. While previous research accelerates
diffusion models in various aspects, it seldom handles the inherent redundancy
within the latent space. To bridge this gap, this paper introduces DC-Gen, a
general framework that accelerates text-to-image diffusion models by leveraging
a deeply compressed latent space. Rather than a costly training-from-scratch
approach, DC-Gen uses an efficient post-training pipeline to preserve the
quality of the base model. A key challenge in this paradigm is the
representation gap between the base model's latent space and a deeply
compressed latent space, which can lead to instability during direct
fine-tuning. To overcome this, DC-Gen first bridges the representation gap with
a lightweight embedding alignment training. Once the latent embeddings are
aligned, only a small amount of LoRA fine-tuning is needed to unlock the base
model's inherent generation quality. We verify DC-Gen's effectiveness on SANA
and FLUX.1-Krea. The resulting DC-Gen-SANA and DC-Gen-FLUX models achieve
quality comparable to their base models but with a significant speedup.
Specifically, DC-Gen-FLUX reduces the latency of 4K image generation by 53x on
the NVIDIA H100 GPU. When combined with NVFP4 SVDQuant, DC-Gen-FLUX generates a
4K image in just 3.5 seconds on a single NVIDIA 5090 GPU, achieving a total
latency reduction of 138x compared to the base FLUX.1-Krea model. Code:
https://github.com/dc-ai-projects/DC-Gen.