SenseFlow: Skalierung der Verteilungsanpassung für flussbasierte Text-zu-Bild-Destillation
SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation
May 31, 2025
Autoren: Xingtong Ge, Xin Zhang, Tongda Xu, Yi Zhang, Xinjie Zhang, Yan Wang, Jun Zhang
cs.AI
Zusammenfassung
Die Distribution Matching Distillation (DMD) wurde erfolgreich auf Text-zu-Bild-Diffusionsmodelle wie Stable Diffusion (SD) 1.5 angewendet. Allerdings zeigt die Standardversion von DMD Konvergenzschwierigkeiten bei großskaligen, flussbasierten Text-zu-Bild-Modellen wie SD 3.5 und FLUX. In diesem Artikel analysieren wir zunächst die Probleme, die bei der Anwendung von Standard-DMD auf großskalige Modelle auftreten. Um die Skalierbarkeitsherausforderung zu bewältigen, schlagen wir dann die implizite Verteilungsanpassung (Implicit Distribution Alignment, IDA) vor, um den Abstand zwischen dem Generator und der gefälschten Verteilung zu regulieren. Darüber hinaus schlagen wir die intra-segmentale Führung (Intra-Segment Guidance, ISG) vor, um die Zeitschritt-Wichtigkeitsverteilung des Lehrermodells neu zu positionieren. Mit IDA allein konvergiert DMD für SD 3.5; durch den Einsatz von IDA und ISG konvergiert DMD für SD 3.5 und FLUX.1 dev. Zusammen mit anderen Verbesserungen wie hochskalierten Diskriminatormodellen erreicht unser finales Modell, SenseFlow genannt, eine überlegene Leistung bei der Destillation sowohl für diffusionsbasierte Text-zu-Bild-Modelle wie SDXL als auch für flussbasierte Modelle wie SD 3.5 Large und FLUX. Der Quellcode wird unter https://github.com/XingtongGe/SenseFlow verfügbar sein.
English
The Distribution Matching Distillation (DMD) has been successfully applied to
text-to-image diffusion models such as Stable Diffusion (SD) 1.5. However,
vanilla DMD suffers from convergence difficulties on large-scale flow-based
text-to-image models, such as SD 3.5 and FLUX. In this paper, we first analyze
the issues when applying vanilla DMD on large-scale models. Then, to overcome
the scalability challenge, we propose implicit distribution alignment (IDA) to
regularize the distance between the generator and fake distribution.
Furthermore, we propose intra-segment guidance (ISG) to relocate the timestep
importance distribution from the teacher model. With IDA alone, DMD converges
for SD 3.5; employing both IDA and ISG, DMD converges for SD 3.5 and FLUX.1
dev. Along with other improvements such as scaled up discriminator models, our
final model, dubbed SenseFlow, achieves superior performance in
distillation for both diffusion based text-to-image models such as SDXL, and
flow-matching models such as SD 3.5 Large and FLUX. The source code will be
avaliable at https://github.com/XingtongGe/SenseFlow.