SenseFlow: Scalabilità della corrispondenza distributiva per la distillazione di immagini da testo basata su flussi

Abstract

Il Distillation Matching Distribution (DMD) è stato applicato con successo a modelli di diffusione testo-immagine come Stable Diffusion (SD) 1.5. Tuttavia, la versione base di DMD incontra difficoltà di convergenza su modelli di flusso testo-immagine su larga scala, come SD 3.5 e FLUX. In questo articolo, analizziamo inizialmente i problemi riscontrati nell'applicare la versione base di DMD su modelli di grandi dimensioni. Successivamente, per superare la sfida della scalabilità, proponiamo l'allineamento implicito della distribuzione (IDA) per regolarizzare la distanza tra il generatore e la distribuzione fittizia. Inoltre, introduciamo la guida intra-segmento (ISG) per riallocare la distribuzione dell'importanza dei passi temporali dal modello insegnante. Con il solo IDA, DMD converge per SD 3.5; utilizzando sia IDA che ISG, DMD converge per SD 3.5 e FLUX.1 dev. Insieme ad altri miglioramenti, come modelli discriminatori scalati, il nostro modello finale, denominato SenseFlow, raggiunge prestazioni superiori nella distillazione sia per modelli di diffusione testo-immagine come SDXL, sia per modelli di flusso come SD 3.5 Large e FLUX. Il codice sorgente sarà disponibile all'indirizzo https://github.com/XingtongGe/SenseFlow.

English

The Distribution Matching Distillation (DMD) has been successfully applied to text-to-image diffusion models such as Stable Diffusion (SD) 1.5. However, vanilla DMD suffers from convergence difficulties on large-scale flow-based text-to-image models, such as SD 3.5 and FLUX. In this paper, we first analyze the issues when applying vanilla DMD on large-scale models. Then, to overcome the scalability challenge, we propose implicit distribution alignment (IDA) to regularize the distance between the generator and fake distribution. Furthermore, we propose intra-segment guidance (ISG) to relocate the timestep importance distribution from the teacher model. With IDA alone, DMD converges for SD 3.5; employing both IDA and ISG, DMD converges for SD 3.5 and FLUX.1 dev. Along with other improvements such as scaled up discriminator models, our final model, dubbed SenseFlow, achieves superior performance in distillation for both diffusion based text-to-image models such as SDXL, and flow-matching models such as SD 3.5 Large and FLUX. The source code will be avaliable at https://github.com/XingtongGe/SenseFlow.

SenseFlow: Scalabilità della corrispondenza distributiva per la distillazione di immagini da testo basata su flussi

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

Abstract

Support