ChatPaper.aiChatPaper

SenseFlow : Mise à l'échelle de l'appariement de distribution pour la distillation texte-image basée sur les flux

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

May 31, 2025
Auteurs: Xingtong Ge, Xin Zhang, Tongda Xu, Yi Zhang, Xinjie Zhang, Yan Wang, Jun Zhang
cs.AI

Résumé

La Distillation par Correspondance de Distribution (DMD) a été appliquée avec succès à des modèles de diffusion texte-image tels que Stable Diffusion (SD) 1.5. Cependant, la DMD classique rencontre des difficultés de convergence sur des modèles texte-image à grande échelle basés sur des flux, comme SD 3.5 et FLUX. Dans cet article, nous analysons d’abord les problèmes rencontrés lors de l’application de la DMD classique à des modèles à grande échelle. Ensuite, pour surmonter le défi de l’évolutivité, nous proposons l’alignement implicite de distribution (IDA) pour régulariser la distance entre le générateur et la distribution simulée. De plus, nous proposons un guidage intra-segment (ISG) pour repositionner la distribution d’importance des pas de temps du modèle enseignant. Avec l’IDA seule, la DMD converge pour SD 3.5 ; en utilisant à la fois l’IDA et l’ISG, la DMD converge pour SD 3.5 et FLUX.1 dev. Accompagnée d’autres améliorations telles que des modèles de discriminateurs mis à l’échelle, notre modèle final, baptisé SenseFlow, atteint des performances supérieures en distillation pour les modèles texte-image basés sur la diffusion comme SDXL, ainsi que pour les modèles de correspondance de flux comme SD 3.5 Large et FLUX. Le code source sera disponible à l’adresse https://github.com/XingtongGe/SenseFlow.
English
The Distribution Matching Distillation (DMD) has been successfully applied to text-to-image diffusion models such as Stable Diffusion (SD) 1.5. However, vanilla DMD suffers from convergence difficulties on large-scale flow-based text-to-image models, such as SD 3.5 and FLUX. In this paper, we first analyze the issues when applying vanilla DMD on large-scale models. Then, to overcome the scalability challenge, we propose implicit distribution alignment (IDA) to regularize the distance between the generator and fake distribution. Furthermore, we propose intra-segment guidance (ISG) to relocate the timestep importance distribution from the teacher model. With IDA alone, DMD converges for SD 3.5; employing both IDA and ISG, DMD converges for SD 3.5 and FLUX.1 dev. Along with other improvements such as scaled up discriminator models, our final model, dubbed SenseFlow, achieves superior performance in distillation for both diffusion based text-to-image models such as SDXL, and flow-matching models such as SD 3.5 Large and FLUX. The source code will be avaliable at https://github.com/XingtongGe/SenseFlow.
PDF32June 3, 2025