ChatPaper.aiChatPaper

SenseFlow: Escalando la Coincidencia de Distribución para la Destilación de Imágenes a partir de Texto basada en Flujos

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

May 31, 2025
Autores: Xingtong Ge, Xin Zhang, Tongda Xu, Yi Zhang, Xinjie Zhang, Yan Wang, Jun Zhang
cs.AI

Resumen

La Distilación de Coincidencia de Distribución (DMD, por sus siglas en inglés) se ha aplicado con éxito a modelos de difusión de texto a imagen, como Stable Diffusion (SD) 1.5. Sin embargo, la DMD básica presenta dificultades de convergencia en modelos de texto a imagen basados en flujo a gran escala, como SD 3.5 y FLUX. En este artículo, primero analizamos los problemas que surgen al aplicar la DMD básica en modelos a gran escala. Luego, para superar el desafío de escalabilidad, proponemos la alineación implícita de distribución (IDA, por sus siglas en inglés) para regularizar la distancia entre el generador y la distribución falsa. Además, proponemos la guía intra-segmento (ISG, por sus siglas en inglés) para reubicar la distribución de importancia de los pasos temporales del modelo maestro. Con solo IDA, la DMD converge para SD 3.5; al emplear tanto IDA como ISG, la DMD converge para SD 3.5 y FLUX.1 dev. Junto con otras mejoras, como modelos de discriminadores escalados, nuestro modelo final, denominado SenseFlow, logra un rendimiento superior en la distilación tanto para modelos de texto a imagen basados en difusión, como SDXL, como para modelos de coincidencia de flujo, como SD 3.5 Large y FLUX. El código fuente estará disponible en https://github.com/XingtongGe/SenseFlow.
English
The Distribution Matching Distillation (DMD) has been successfully applied to text-to-image diffusion models such as Stable Diffusion (SD) 1.5. However, vanilla DMD suffers from convergence difficulties on large-scale flow-based text-to-image models, such as SD 3.5 and FLUX. In this paper, we first analyze the issues when applying vanilla DMD on large-scale models. Then, to overcome the scalability challenge, we propose implicit distribution alignment (IDA) to regularize the distance between the generator and fake distribution. Furthermore, we propose intra-segment guidance (ISG) to relocate the timestep importance distribution from the teacher model. With IDA alone, DMD converges for SD 3.5; employing both IDA and ISG, DMD converges for SD 3.5 and FLUX.1 dev. Along with other improvements such as scaled up discriminator models, our final model, dubbed SenseFlow, achieves superior performance in distillation for both diffusion based text-to-image models such as SDXL, and flow-matching models such as SD 3.5 Large and FLUX. The source code will be avaliable at https://github.com/XingtongGe/SenseFlow.
PDF32June 3, 2025