ChatPaper.aiChatPaper

DC-Gen: Accelerazione Post-Addestramento della Diffusione con Spazio Latente Profondamente Compresso

DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed Latent Space

September 29, 2025
Autori: Wenkun He, Yuchao Gu, Junyu Chen, Dongyun Zou, Yujun Lin, Zhekai Zhang, Haocheng Xi, Muyang Li, Ligeng Zhu, Jincheng Yu, Junsong Chen, Enze Xie, Song Han, Han Cai
cs.AI

Abstract

I modelli di diffusione testo-immagine esistenti eccellono nella generazione di immagini di alta qualità, ma affrontano significative sfide di efficienza quando vengono scalati a risoluzioni elevate, come la generazione di immagini 4K. Sebbene ricerche precedenti abbiano accelerato i modelli di diffusione in vari aspetti, raramente hanno affrontato la ridondanza intrinseca all'interno dello spazio latente. Per colmare questa lacuna, questo articolo introduce DC-Gen, un framework generale che accelera i modelli di diffusione testo-immagine sfruttando uno spazio latente profondamente compresso. Invece di un approccio costoso di addestramento da zero, DC-Gen utilizza una pipeline efficiente post-addestramento per preservare la qualità del modello di base. Una sfida chiave in questo paradigma è il divario di rappresentazione tra lo spazio latente del modello di base e uno spazio latente profondamente compresso, che può portare a instabilità durante la messa a punto diretta. Per superare questo problema, DC-Gen colma prima il divario di rappresentazione con un addestramento leggero di allineamento degli embedding. Una volta allineati gli embedding latenti, è necessaria solo una piccola quantità di messa a punto LoRA per sbloccare la qualità intrinseca di generazione del modello di base. Verifichiamo l'efficacia di DC-Gen su SANA e FLUX.1-Krea. I modelli risultanti DC-Gen-SANA e DC-Gen-FLUX raggiungono una qualità comparabile ai loro modelli di base, ma con un significativo aumento di velocità. In particolare, DC-Gen-FLUX riduce la latenza della generazione di immagini 4K di 53x sulla GPU NVIDIA H100. Quando combinato con NVFP4 SVDQuant, DC-Gen-FLUX genera un'immagine 4K in soli 3,5 secondi su una singola GPU NVIDIA 5090, ottenendo una riduzione totale della latenza di 138x rispetto al modello di base FLUX.1-Krea. Codice: https://github.com/dc-ai-projects/DC-Gen.
English
Existing text-to-image diffusion models excel at generating high-quality images, but face significant efficiency challenges when scaled to high resolutions, like 4K image generation. While previous research accelerates diffusion models in various aspects, it seldom handles the inherent redundancy within the latent space. To bridge this gap, this paper introduces DC-Gen, a general framework that accelerates text-to-image diffusion models by leveraging a deeply compressed latent space. Rather than a costly training-from-scratch approach, DC-Gen uses an efficient post-training pipeline to preserve the quality of the base model. A key challenge in this paradigm is the representation gap between the base model's latent space and a deeply compressed latent space, which can lead to instability during direct fine-tuning. To overcome this, DC-Gen first bridges the representation gap with a lightweight embedding alignment training. Once the latent embeddings are aligned, only a small amount of LoRA fine-tuning is needed to unlock the base model's inherent generation quality. We verify DC-Gen's effectiveness on SANA and FLUX.1-Krea. The resulting DC-Gen-SANA and DC-Gen-FLUX models achieve quality comparable to their base models but with a significant speedup. Specifically, DC-Gen-FLUX reduces the latency of 4K image generation by 53x on the NVIDIA H100 GPU. When combined with NVFP4 SVDQuant, DC-Gen-FLUX generates a 4K image in just 3.5 seconds on a single NVIDIA 5090 GPU, achieving a total latency reduction of 138x compared to the base FLUX.1-Krea model. Code: https://github.com/dc-ai-projects/DC-Gen.
PDF62October 1, 2025