SenseFlow: Scalabilità della corrispondenza distributiva per la distillazione di immagini da testo basata su flussi
SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation
May 31, 2025
Autori: Xingtong Ge, Xin Zhang, Tongda Xu, Yi Zhang, Xinjie Zhang, Yan Wang, Jun Zhang
cs.AI
Abstract
Il Distillation Matching Distribution (DMD) è stato applicato con successo a modelli di diffusione testo-immagine come Stable Diffusion (SD) 1.5. Tuttavia, la versione base di DMD incontra difficoltà di convergenza su modelli di flusso testo-immagine su larga scala, come SD 3.5 e FLUX. In questo articolo, analizziamo inizialmente i problemi riscontrati nell'applicare la versione base di DMD su modelli di grandi dimensioni. Successivamente, per superare la sfida della scalabilità, proponiamo l'allineamento implicito della distribuzione (IDA) per regolarizzare la distanza tra il generatore e la distribuzione fittizia. Inoltre, introduciamo la guida intra-segmento (ISG) per riallocare la distribuzione dell'importanza dei passi temporali dal modello insegnante. Con il solo IDA, DMD converge per SD 3.5; utilizzando sia IDA che ISG, DMD converge per SD 3.5 e FLUX.1 dev. Insieme ad altri miglioramenti, come modelli discriminatori scalati, il nostro modello finale, denominato SenseFlow, raggiunge prestazioni superiori nella distillazione sia per modelli di diffusione testo-immagine come SDXL, sia per modelli di flusso come SD 3.5 Large e FLUX. Il codice sorgente sarà disponibile all'indirizzo https://github.com/XingtongGe/SenseFlow.
English
The Distribution Matching Distillation (DMD) has been successfully applied to
text-to-image diffusion models such as Stable Diffusion (SD) 1.5. However,
vanilla DMD suffers from convergence difficulties on large-scale flow-based
text-to-image models, such as SD 3.5 and FLUX. In this paper, we first analyze
the issues when applying vanilla DMD on large-scale models. Then, to overcome
the scalability challenge, we propose implicit distribution alignment (IDA) to
regularize the distance between the generator and fake distribution.
Furthermore, we propose intra-segment guidance (ISG) to relocate the timestep
importance distribution from the teacher model. With IDA alone, DMD converges
for SD 3.5; employing both IDA and ISG, DMD converges for SD 3.5 and FLUX.1
dev. Along with other improvements such as scaled up discriminator models, our
final model, dubbed SenseFlow, achieves superior performance in
distillation for both diffusion based text-to-image models such as SDXL, and
flow-matching models such as SD 3.5 Large and FLUX. The source code will be
avaliable at https://github.com/XingtongGe/SenseFlow.