DMD por Fases: Destilación de Correspondencia de Distribución en Pocos Pasos mediante Emparejamiento de Puntuaciones en Subintervalos
Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals
October 31, 2025
Autores: Xiangyu Fan, Zesong Qiu, Zhuguanyu Wu, Fanzhou Wang, Zhiqian Lin, Tianxiang Ren, Dahua Lin, Ruihao Gong, Lei Yang
cs.AI
Resumen
La Distilación por Coincidencia de Distribución (DMD) condensa modelos generativos basados en puntuaciones en generadores eficientes de un solo paso, sin requerir una correspondencia uno a uno con las trayectorias de muestreo de sus modelos maestros. Sin embargo, la capacidad limitada del modelo hace que los modelos destilados en un solo paso tengan un rendimiento inferior en tareas generativas complejas, por ejemplo, en la síntesis de movimientos de objetos intrincados en la generación de texto a video. Extender directamente DMD a una destilación multi-paso aumenta el uso de memoria y la profundidad computacional, lo que conduce a inestabilidad y reducción de la eficiencia. Si bien trabajos previos proponen el truncamiento estocástico del gradiente como una solución potencial, observamos que este reduce sustancialmente la diversidad generativa de los modelos destilados multi-paso, llevándola al nivel de sus contrapartes de un solo paso. Para abordar estas limitaciones, proponemos Phased DMD, un marco de destilación multi-paso que combina la idea de destilación por fases con Mezcla de Expertos (MoE), reduciendo la dificultad de aprendizaje mientras mejora la capacidad del modelo. Phased DMD se basa en dos ideas clave: la coincidencia de distribución progresiva y la coincidencia de puntuaciones dentro de subintervalos. Primero, nuestro modelo divide el rango de SNR en subintervalos, refinando progresivamente el modelo hacia niveles de SNR más altos para capturar mejor distribuciones complejas. A continuación, para garantizar que el objetivo de entrenamiento dentro de cada subintervalo sea preciso, hemos realizado rigurosas derivaciones matemáticas. Validamos Phased DMD destilando modelos de última generación en generación de imágenes y video, incluyendo Qwen-Image (20B parámetros) y Wan2.2 (28B parámetros). Los resultados experimentales demuestran que Phased DMD preserva mejor la diversidad de salida que DMD, al tiempo que retiene las capacidades generativas clave. Liberaremos nuestro código y modelos.
English
Distribution Matching Distillation (DMD) distills score-based generative
models into efficient one-step generators, without requiring a one-to-one
correspondence with the sampling trajectories of their teachers. However,
limited model capacity causes one-step distilled models underperform on complex
generative tasks, e.g., synthesizing intricate object motions in text-to-video
generation. Directly extending DMD to multi-step distillation increases memory
usage and computational depth, leading to instability and reduced efficiency.
While prior works propose stochastic gradient truncation as a potential
solution, we observe that it substantially reduces the generation diversity of
multi-step distilled models, bringing it down to the level of their one-step
counterparts. To address these limitations, we propose Phased DMD, a multi-step
distillation framework that bridges the idea of phase-wise distillation with
Mixture-of-Experts (MoE), reducing learning difficulty while enhancing model
capacity. Phased DMD is built upon two key ideas: progressive distribution
matching and score matching within subintervals. First, our model divides the
SNR range into subintervals, progressively refining the model to higher SNR
levels, to better capture complex distributions. Next, to ensure the training
objective within each subinterval is accurate, we have conducted rigorous
mathematical derivations. We validate Phased DMD by distilling state-of-the-art
image and video generation models, including Qwen-Image (20B parameters) and
Wan2.2 (28B parameters). Experimental results demonstrate that Phased DMD
preserves output diversity better than DMD while retaining key generative
capabilities. We will release our code and models.