Gefaseerde DMD: Distributie-afstemmingsdistillatie in enkele stappen via score-afstemming binnen subintervallen
Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals
October 31, 2025
Auteurs: Xiangyu Fan, Zesong Qiu, Zhuguanyu Wu, Fanzhou Wang, Zhiqian Lin, Tianxiang Ren, Dahua Lin, Ruihao Gong, Lei Yang
cs.AI
Samenvatting
Distribution Matching Distillation (DMD) distilleert op scores gebaseerde generatieve modellen tot efficiënte één-staps generatoren, zonder dat een één-op-één correspondentie met de bemonsteringstrajecten van hun leraren vereist is. Beperkte modelcapaciteit zorgt er echter voor dat één-staps gedistilleerde modellen onderpresteren op complexe generatieve taken, zoals het synthetiseren van ingewikkelde objectbewegingen in tekst-naar-video-generatie. Het direct uitbreiden van DMD naar multi-staps distillatie verhoogt het geheugengebruik en de computationele diepte, wat leidt tot instabiliteit en verminderde efficiëntie. Hoewel eerdere werken stochastische gradient truncatie als mogelijke oplossing voorstellen, observeren wij dat dit de generatiediversiteit van multi-staps gedistilleerde modellen aanzienlijk reduceert, tot het niveau van hun één-staps tegenhangers. Om deze beperkingen aan te pakken, stellen wij Gefaseerde DMD voor, een multi-staps distillatiekader dat het idee van fasegewijze distillatie verbindt met Mixture-of-Experts (MoE), waardoor de leer moeilijkheid wordt verminderd en de modelcapaciteit wordt verbeterd. Gefaseerde DMD is gebouwd op twee kernideeën: progressieve distributie matching en score matching binnen subintervallen. Ten eerste deelt ons model het SNR-bereik op in subintervallen en verfijnt het model progressief naar hogere SNR-niveaus om complexe distributies beter te leren. Vervolgens hebben wij rigoureuze wiskundige afleidingen uitgevoerd om ervoor te zorgen dat de trainingsdoelstelling binnen elk subinterval accuraat is. Wij valideren Gefaseerde DMD door state-of-the-art beeld- en videogeneratiemodellen te distilleren, waaronder Qwen-Image (20B parameters) en Wan2.2 (28B parameters). Experimentele resultaten tonen aan dat Gefaseerde DMD de uitvoerdiversiteit beter behoudt dan DMD, terwijl essentiële generatieve capaciteiten behouden blijven. Wij zullen onze code en modellen vrijgeven.
English
Distribution Matching Distillation (DMD) distills score-based generative
models into efficient one-step generators, without requiring a one-to-one
correspondence with the sampling trajectories of their teachers. However,
limited model capacity causes one-step distilled models underperform on complex
generative tasks, e.g., synthesizing intricate object motions in text-to-video
generation. Directly extending DMD to multi-step distillation increases memory
usage and computational depth, leading to instability and reduced efficiency.
While prior works propose stochastic gradient truncation as a potential
solution, we observe that it substantially reduces the generation diversity of
multi-step distilled models, bringing it down to the level of their one-step
counterparts. To address these limitations, we propose Phased DMD, a multi-step
distillation framework that bridges the idea of phase-wise distillation with
Mixture-of-Experts (MoE), reducing learning difficulty while enhancing model
capacity. Phased DMD is built upon two key ideas: progressive distribution
matching and score matching within subintervals. First, our model divides the
SNR range into subintervals, progressively refining the model to higher SNR
levels, to better capture complex distributions. Next, to ensure the training
objective within each subinterval is accurate, we have conducted rigorous
mathematical derivations. We validate Phased DMD by distilling state-of-the-art
image and video generation models, including Qwen-Image (20B parameters) and
Wan2.2 (28B parameters). Experimental results demonstrate that Phased DMD
preserves output diversity better than DMD while retaining key generative
capabilities. We will release our code and models.