ChatPaper.aiChatPaper

SenseFlow: Schaalvergroting van distributie-afstemming voor flow-gebaseerde tekst-naar-beeld distillatie

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

May 31, 2025
Auteurs: Xingtong Ge, Xin Zhang, Tongda Xu, Yi Zhang, Xinjie Zhang, Yan Wang, Jun Zhang
cs.AI

Samenvatting

De Distribution Matching Distillation (DMD) is met succes toegepast op tekst-naar-beeld diffusiemodellen zoals Stable Diffusion (SD) 1.5. Echter, de standaard DMD heeft moeite met convergentie op grootschalige flow-based tekst-naar-beeldmodellen, zoals SD 3.5 en FLUX. In dit artikel analyseren we eerst de problemen die ontstaan bij het toepassen van standaard DMD op grootschalige modellen. Vervolgens stellen we, om de schaalbaarheidsuitdaging te overwinnen, impliciete distributie-afstemming (IDA) voor om de afstand tussen de generator en de nepdistributie te reguleren. Daarnaast introduceren we intra-segmentbegeleiding (ISG) om de tijdsstapbelangrijkheidsdistributie van het leraarmodel te herpositioneren. Met alleen IDA convergeert DMD voor SD 3.5; door zowel IDA als ISG te gebruiken, convergeert DMD voor SD 3.5 en FLUX.1 dev. Samen met andere verbeteringen, zoals opgeschaalde discriminator-modellen, bereikt ons uiteindelijke model, genaamd SenseFlow, superieure prestaties in distillatie voor zowel diffusiegebaseerde tekst-naar-beeldmodellen zoals SDXL, als flow-matchingmodellen zoals SD 3.5 Large en FLUX. De broncode zal beschikbaar zijn op https://github.com/XingtongGe/SenseFlow.
English
The Distribution Matching Distillation (DMD) has been successfully applied to text-to-image diffusion models such as Stable Diffusion (SD) 1.5. However, vanilla DMD suffers from convergence difficulties on large-scale flow-based text-to-image models, such as SD 3.5 and FLUX. In this paper, we first analyze the issues when applying vanilla DMD on large-scale models. Then, to overcome the scalability challenge, we propose implicit distribution alignment (IDA) to regularize the distance between the generator and fake distribution. Furthermore, we propose intra-segment guidance (ISG) to relocate the timestep importance distribution from the teacher model. With IDA alone, DMD converges for SD 3.5; employing both IDA and ISG, DMD converges for SD 3.5 and FLUX.1 dev. Along with other improvements such as scaled up discriminator models, our final model, dubbed SenseFlow, achieves superior performance in distillation for both diffusion based text-to-image models such as SDXL, and flow-matching models such as SD 3.5 Large and FLUX. The source code will be avaliable at https://github.com/XingtongGe/SenseFlow.
PDF32June 3, 2025