DMD par phases : Distillation par mise en correspondance de distributions en quelques étapes via l'appariement de scores dans des sous-intervalles
Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals
October 31, 2025
papers.authors: Xiangyu Fan, Zesong Qiu, Zhuguanyu Wu, Fanzhou Wang, Zhiqian Lin, Tianxiang Ren, Dahua Lin, Ruihao Gong, Lei Yang
cs.AI
papers.abstract
La Distillation par Appariement de Distribution (DMD) condense les modèles génératifs à base de scores en générateurs efficaces en une seule étape, sans exiger une correspondance un-à-un avec les trajectoires d'échantillonnage de leurs modèles enseignants. Cependant, une capacité de modèle limitée fait que les modèles distillés en une étape sous-performent sur des tâches génératives complexes, par exemple, pour synthétiser des mouvements d'objets complexes dans la génération vidéo à partir de texte. Étendre directement DMD à une distillation multi-étapes augmente l'utilisation de la mémoire et la profondeur computationnelle, conduisant à une instabilité et une efficacité réduite. Bien que des travaux antérieurs proposent la troncature stochastique du gradient comme solution potentielle, nous observons qu'elle réduit substantiellement la diversité de génération des modèles distillés multi-étapes, la ramenant au niveau de leurs équivalents en une étape. Pour résoudre ces limitations, nous proposons Phased DMD, un cadre de distillation multi-étapes qui associe l'idée de distillation par phases avec les Mixtures d'Experts (MoE), réduisant la difficulté d'apprentissage tout en augmentant la capacité du modèle. Phased DMD repose sur deux idées clés : l'appariement de distribution progressive et l'appariement de scores dans des sous-intervalles. Premièrement, notre modèle divise la plage de RSB en sous-intervalles, affinant progressivement le modèle vers des niveaux de RSB plus élevés, pour mieux capturer des distributions complexes. Ensuite, pour garantir l'exactitude de l'objectif d'entraînement dans chaque sous-intervalle, nous avons conduit des dérivations mathématiques rigoureuses. Nous validons Phased DMD en distillant des modèles de génération d'images et de vidéo à la pointe, incluant Qwen-Image (20 milliards de paramètres) et Wan2.2 (28 milliards de paramètres). Les résultats expérimentaux démontrent que Phased DMD préserve mieux la diversité des sorties que DMD tout en conservant les capacités génératives clés. Nous publierons notre code et nos modèles.
English
Distribution Matching Distillation (DMD) distills score-based generative
models into efficient one-step generators, without requiring a one-to-one
correspondence with the sampling trajectories of their teachers. However,
limited model capacity causes one-step distilled models underperform on complex
generative tasks, e.g., synthesizing intricate object motions in text-to-video
generation. Directly extending DMD to multi-step distillation increases memory
usage and computational depth, leading to instability and reduced efficiency.
While prior works propose stochastic gradient truncation as a potential
solution, we observe that it substantially reduces the generation diversity of
multi-step distilled models, bringing it down to the level of their one-step
counterparts. To address these limitations, we propose Phased DMD, a multi-step
distillation framework that bridges the idea of phase-wise distillation with
Mixture-of-Experts (MoE), reducing learning difficulty while enhancing model
capacity. Phased DMD is built upon two key ideas: progressive distribution
matching and score matching within subintervals. First, our model divides the
SNR range into subintervals, progressively refining the model to higher SNR
levels, to better capture complex distributions. Next, to ensure the training
objective within each subinterval is accurate, we have conducted rigorous
mathematical derivations. We validate Phased DMD by distilling state-of-the-art
image and video generation models, including Qwen-Image (20B parameters) and
Wan2.2 (28B parameters). Experimental results demonstrate that Phased DMD
preserves output diversity better than DMD while retaining key generative
capabilities. We will release our code and models.