DC-Gen : Accélération post-entraînement de la diffusion par compression profonde de l'espace latent

papers.abstract

Les modèles de diffusion texte-image existants excellent dans la génération d'images de haute qualité, mais rencontrent des défis d'efficacité significatifs lorsqu'ils sont mis à l'échelle pour des résolutions élevées, comme la génération d'images 4K. Bien que des recherches antérieures aient accéléré les modèles de diffusion sous divers aspects, elles traitent rarement la redondance inhérente à l'espace latent. Pour combler cette lacune, cet article présente DC-Gen, un cadre général qui accélère les modèles de diffusion texte-image en exploitant un espace latent profondément compressé. Plutôt qu'une approche coûteuse de formation à partir de zéro, DC-Gen utilise un pipeline efficace post-formation pour préserver la qualité du modèle de base. Un défi clé dans ce paradigme est l'écart de représentation entre l'espace latent du modèle de base et un espace latent profondément compressé, ce qui peut entraîner une instabilité lors de l'ajustement fin direct. Pour surmonter cela, DC-Gen comble d'abord l'écart de représentation avec un entraînement léger d'alignement des embeddings. Une fois les embeddings latents alignés, seule une petite quantité d'ajustement fin LoRA est nécessaire pour débloquer la qualité de génération inhérente du modèle de base. Nous vérifions l'efficacité de DC-Gen sur SANA et FLUX.1-Krea. Les modèles résultants DC-Gen-SANA et DC-Gen-FLUX atteignent une qualité comparable à leurs modèles de base mais avec une accélération significative. Plus précisément, DC-Gen-FLUX réduit la latence de la génération d'images 4K par 53x sur le GPU NVIDIA H100. Lorsqu'il est combiné avec NVFP4 SVDQuant, DC-Gen-FLUX génère une image 4K en seulement 3,5 secondes sur un seul GPU NVIDIA 5090, atteignant une réduction totale de latence de 138x par rapport au modèle de base FLUX.1-Krea. Code : https://github.com/dc-ai-projects/DC-Gen.

English

Existing text-to-image diffusion models excel at generating high-quality images, but face significant efficiency challenges when scaled to high resolutions, like 4K image generation. While previous research accelerates diffusion models in various aspects, it seldom handles the inherent redundancy within the latent space. To bridge this gap, this paper introduces DC-Gen, a general framework that accelerates text-to-image diffusion models by leveraging a deeply compressed latent space. Rather than a costly training-from-scratch approach, DC-Gen uses an efficient post-training pipeline to preserve the quality of the base model. A key challenge in this paradigm is the representation gap between the base model's latent space and a deeply compressed latent space, which can lead to instability during direct fine-tuning. To overcome this, DC-Gen first bridges the representation gap with a lightweight embedding alignment training. Once the latent embeddings are aligned, only a small amount of LoRA fine-tuning is needed to unlock the base model's inherent generation quality. We verify DC-Gen's effectiveness on SANA and FLUX.1-Krea. The resulting DC-Gen-SANA and DC-Gen-FLUX models achieve quality comparable to their base models but with a significant speedup. Specifically, DC-Gen-FLUX reduces the latency of 4K image generation by 53x on the NVIDIA H100 GPU. When combined with NVFP4 SVDQuant, DC-Gen-FLUX generates a 4K image in just 3.5 seconds on a single NVIDIA 5090 GPU, achieving a total latency reduction of 138x compared to the base FLUX.1-Krea model. Code: https://github.com/dc-ai-projects/DC-Gen.

DC-Gen : Accélération post-entraînement de la diffusion par compression profonde de l'espace latent

DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed Latent Space

papers.abstract

Support