ChatPaper.aiChatPaper

DC-Gen: Aceleración de Difusión Post-Entrenamiento con Espacio Latente Profundamente Comprimido

DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed Latent Space

September 29, 2025
Autores: Wenkun He, Yuchao Gu, Junyu Chen, Dongyun Zou, Yujun Lin, Zhekai Zhang, Haocheng Xi, Muyang Li, Ligeng Zhu, Jincheng Yu, Junsong Chen, Enze Xie, Song Han, Han Cai
cs.AI

Resumen

Los modelos de difusión de texto a imagen existentes sobresalen en la generación de imágenes de alta calidad, pero enfrentan desafíos significativos de eficiencia cuando se escalan a resoluciones altas, como la generación de imágenes en 4K. Si bien investigaciones previas han acelerado los modelos de difusión en varios aspectos, rara vez abordan la redundancia inherente dentro del espacio latente. Para cerrar esta brecha, este artículo presenta DC-Gen, un marco general que acelera los modelos de difusión de texto a imagen aprovechando un espacio latente profundamente comprimido. En lugar de un enfoque costoso de entrenamiento desde cero, DC-Gen utiliza una canalización eficiente de posentrenamiento para preservar la calidad del modelo base. Un desafío clave en este paradigma es la brecha de representación entre el espacio latente del modelo base y un espacio latente profundamente comprimido, lo que puede generar inestabilidad durante el ajuste fino directo. Para superar esto, DC-Gen primero cierra la brecha de representación con un entrenamiento ligero de alineación de incrustaciones. Una vez que las incrustaciones latentes están alineadas, solo se necesita una pequeña cantidad de ajuste fino LoRA para desbloquear la calidad de generación inherente del modelo base. Verificamos la efectividad de DC-Gen en SANA y FLUX.1-Krea. Los modelos resultantes, DC-Gen-SANA y DC-Gen-FLUX, logran una calidad comparable a sus modelos base pero con una aceleración significativa. Específicamente, DC-Gen-FLUX reduce la latencia de la generación de imágenes en 4K en 53 veces en la GPU NVIDIA H100. Cuando se combina con NVFP4 SVDQuant, DC-Gen-FLUX genera una imagen en 4K en solo 3.5 segundos en una sola GPU NVIDIA 5090, logrando una reducción total de latencia de 138 veces en comparación con el modelo base FLUX.1-Krea. Código: https://github.com/dc-ai-projects/DC-Gen.
English
Existing text-to-image diffusion models excel at generating high-quality images, but face significant efficiency challenges when scaled to high resolutions, like 4K image generation. While previous research accelerates diffusion models in various aspects, it seldom handles the inherent redundancy within the latent space. To bridge this gap, this paper introduces DC-Gen, a general framework that accelerates text-to-image diffusion models by leveraging a deeply compressed latent space. Rather than a costly training-from-scratch approach, DC-Gen uses an efficient post-training pipeline to preserve the quality of the base model. A key challenge in this paradigm is the representation gap between the base model's latent space and a deeply compressed latent space, which can lead to instability during direct fine-tuning. To overcome this, DC-Gen first bridges the representation gap with a lightweight embedding alignment training. Once the latent embeddings are aligned, only a small amount of LoRA fine-tuning is needed to unlock the base model's inherent generation quality. We verify DC-Gen's effectiveness on SANA and FLUX.1-Krea. The resulting DC-Gen-SANA and DC-Gen-FLUX models achieve quality comparable to their base models but with a significant speedup. Specifically, DC-Gen-FLUX reduces the latency of 4K image generation by 53x on the NVIDIA H100 GPU. When combined with NVFP4 SVDQuant, DC-Gen-FLUX generates a 4K image in just 3.5 seconds on a single NVIDIA 5090 GPU, achieving a total latency reduction of 138x compared to the base FLUX.1-Krea model. Code: https://github.com/dc-ai-projects/DC-Gen.
PDF62October 1, 2025