DMD a Fasi: Distillazione di Matching di Distribuzione in Pochi Passi tramite Score Matching all'interno di Sottointervalli
Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals
October 31, 2025
Autori: Xiangyu Fan, Zesong Qiu, Zhuguanyu Wu, Fanzhou Wang, Zhiqian Lin, Tianxiang Ren, Dahua Lin, Ruihao Gong, Lei Yang
cs.AI
Abstract
La distillazione per corrispondenza di distribuzione (DMD) riduce i modelli generativi basati su punteggi in generatori efficienti a un singolo passaggio, senza richiedere una corrispondenza uno-a-uno con le traiettorie di campionamento dei modelli insegnanti. Tuttavia, la capacità limitata del modello fa sì che i modelli distillati in un solo passaggio abbiano prestazioni inferiori in compiti generativi complessi, come la sintesi di movimenti oggettuali intricati nella generazione video da testo. Estendere direttamente la DMD alla distillazione multi-passaggio aumenta l'utilizzo di memoria e la profondità computazionale, portando a instabilità e ridotta efficienza. Sebbene lavori precedenti propongano la troncatura stocastica del gradiente come potenziale soluzione, noi osserviamo che essa riduce sostanzialmente la diversità generativa dei modelli distillati multi-passaggio, riportandola al livello delle controparti a singolo passaggio. Per affrontare queste limitazioni, proponiamo Phased DMD, un framework di distillazione multi-passaggio che combina l'idea di distillazione per fasi con le Misture di Esperti (MoE), riducendo la difficoltà di apprendimento mentre aumenta la capacità del modello. Phased DMD si basa su due idee chiave: corrispondenza di distribuzione progressiva e corrispondenza dei punteggi all'interno di sottointervalli. In primo luogo, il nostro modello divide l'intervallo SNR in sottointervalli, affinando progressivamente il modello verso livelli SNR più alti, per catturare meglio distribuzioni complesse. Successivamente, per garantire l'accuratezza dell'obiettivo di addestramento in ciascun sottointervallo, abbiamo condotto rigorose derivazioni matematiche. Convalidiamo Phased DMD distillando modelli all'avanguardia per la generazione di immagini e video, inclusi Qwen-Image (20B parametri) e Wan2.2 (28B parametri). I risultati sperimentali dimostrano che Phased DMD preserva la diversità dell'output meglio di DMD, mantenendo al contempo le capacità generative chiave. Rilasceremo il nostro codice e i nostri modelli.
English
Distribution Matching Distillation (DMD) distills score-based generative
models into efficient one-step generators, without requiring a one-to-one
correspondence with the sampling trajectories of their teachers. However,
limited model capacity causes one-step distilled models underperform on complex
generative tasks, e.g., synthesizing intricate object motions in text-to-video
generation. Directly extending DMD to multi-step distillation increases memory
usage and computational depth, leading to instability and reduced efficiency.
While prior works propose stochastic gradient truncation as a potential
solution, we observe that it substantially reduces the generation diversity of
multi-step distilled models, bringing it down to the level of their one-step
counterparts. To address these limitations, we propose Phased DMD, a multi-step
distillation framework that bridges the idea of phase-wise distillation with
Mixture-of-Experts (MoE), reducing learning difficulty while enhancing model
capacity. Phased DMD is built upon two key ideas: progressive distribution
matching and score matching within subintervals. First, our model divides the
SNR range into subintervals, progressively refining the model to higher SNR
levels, to better capture complex distributions. Next, to ensure the training
objective within each subinterval is accurate, we have conducted rigorous
mathematical derivations. We validate Phased DMD by distilling state-of-the-art
image and video generation models, including Qwen-Image (20B parameters) and
Wan2.2 (28B parameters). Experimental results demonstrate that Phased DMD
preserves output diversity better than DMD while retaining key generative
capabilities. We will release our code and models.