SenseFlow: Масштабирование распределительного согласования для потоковой дистилляции текст-в-изображение
SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation
May 31, 2025
Авторы: Xingtong Ge, Xin Zhang, Tongda Xu, Yi Zhang, Xinjie Zhang, Yan Wang, Jun Zhang
cs.AI
Аннотация
Метод Distribution Matching Distillation (DMD) успешно применялся к диффузионным моделям для генерации изображений из текста, таким как Stable Diffusion (SD) 1.5. Однако базовый DMD сталкивается с трудностями сходимости при работе с крупномасштабными моделями на основе потоков, такими как SD 3.5 и FLUX. В данной статье мы сначала анализируем проблемы, возникающие при применении базового DMD к крупномасштабным моделям. Затем, чтобы преодолеть вызовы масштабируемости, мы предлагаем метод неявного выравнивания распределений (Implicit Distribution Alignment, IDA) для регуляризации расстояния между распределением генератора и поддельным распределением. Кроме того, мы предлагаем внутрисегментное руководство (Intra-Segment Guidance, ISG) для перераспределения важности временных шагов из модели учителя. С использованием только IDA, DMD сходится для SD 3.5; при совместном использовании IDA и ISG, DMD сходится для SD 3.5 и FLUX.1 dev. В сочетании с другими улучшениями, такими как масштабированные модели дискриминатора, наша итоговая модель, названная SenseFlow, демонстрирует превосходную производительность в дистилляции как для диффузионных моделей генерации изображений из текста, таких как SDXL, так и для моделей на основе потоков, таких как SD 3.5 Large и FLUX. Исходный код будет доступен по адресу https://github.com/XingtongGe/SenseFlow.
English
The Distribution Matching Distillation (DMD) has been successfully applied to
text-to-image diffusion models such as Stable Diffusion (SD) 1.5. However,
vanilla DMD suffers from convergence difficulties on large-scale flow-based
text-to-image models, such as SD 3.5 and FLUX. In this paper, we first analyze
the issues when applying vanilla DMD on large-scale models. Then, to overcome
the scalability challenge, we propose implicit distribution alignment (IDA) to
regularize the distance between the generator and fake distribution.
Furthermore, we propose intra-segment guidance (ISG) to relocate the timestep
importance distribution from the teacher model. With IDA alone, DMD converges
for SD 3.5; employing both IDA and ISG, DMD converges for SD 3.5 and FLUX.1
dev. Along with other improvements such as scaled up discriminator models, our
final model, dubbed SenseFlow, achieves superior performance in
distillation for both diffusion based text-to-image models such as SDXL, and
flow-matching models such as SD 3.5 Large and FLUX. The source code will be
avaliable at https://github.com/XingtongGe/SenseFlow.