DMD Faseado: Destilação de Correspondência de Distribuição em Poucos Passos via Correspondência de Pontuação em Subintervalos
Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals
October 31, 2025
Autores: Xiangyu Fan, Zesong Qiu, Zhuguanyu Wu, Fanzhou Wang, Zhiqian Lin, Tianxiang Ren, Dahua Lin, Ruihao Gong, Lei Yang
cs.AI
Resumo
O DMD (Distribution Matching Distillation) destila modelos generativos baseados em *score* em geradores eficientes de uma única etapa, sem exigir uma correspondência um-para-um com as trajetórias de amostragem de seus modelos professores. No entanto, a capacidade limitada do modelo faz com que os modelos destilados em uma única etapa tenham desempenho inferior em tarefas generativas complexas, por exemplo, na síntese de movimentos intrincados de objetos na geração de texto para vídeo. Estender diretamente o DMD para a destilação multi-etapa aumenta o uso de memória e a profundidade computacional, levando à instabilidade e redução da eficiência. Embora trabalhos anteriores proponham o truncamento estocástico do gradiente como uma solução potencial, observamos que isso reduz substancialmente a diversidade de geração dos modelos destilados multi-etapa, aproximando-a do nível de suas contrapartes de etapa única. Para superar essas limitações, propomos o Phased DMD, uma estrutura de destilação multi-etapa que une a ideia de destilação por fases com *Mixture-of-Experts* (MoE), reduzindo a dificuldade de aprendizado enquanto aumenta a capacidade do modelo. O Phased DMD é construído sobre duas ideias principais: correspondência progressiva de distribuição e correspondência de *score* dentro de subintervalos. Primeiro, nosso modelo divide a faixa de SNR em subintervalos, refinando progressivamente o modelo para níveis de SNR mais altos, para capturar melhor distribuições complexas. Em seguida, para garantir que o objetivo de treinamento dentro de cada subintervalo seja preciso, conduzimos derivações matemáticas rigorosas. Validamos o Phased DMD destilando modelos de geração de imagem e vídeo de última geração, incluindo Qwen-Image (20B parâmetros) e Wan2.2 (28B parâmetros). Resultados experimentais demonstram que o Phased DMD preserva a diversidade de saída melhor do que o DMD, mantendo as capacidades generativas essenciais. Disponibilizaremos nosso código e modelos.
English
Distribution Matching Distillation (DMD) distills score-based generative
models into efficient one-step generators, without requiring a one-to-one
correspondence with the sampling trajectories of their teachers. However,
limited model capacity causes one-step distilled models underperform on complex
generative tasks, e.g., synthesizing intricate object motions in text-to-video
generation. Directly extending DMD to multi-step distillation increases memory
usage and computational depth, leading to instability and reduced efficiency.
While prior works propose stochastic gradient truncation as a potential
solution, we observe that it substantially reduces the generation diversity of
multi-step distilled models, bringing it down to the level of their one-step
counterparts. To address these limitations, we propose Phased DMD, a multi-step
distillation framework that bridges the idea of phase-wise distillation with
Mixture-of-Experts (MoE), reducing learning difficulty while enhancing model
capacity. Phased DMD is built upon two key ideas: progressive distribution
matching and score matching within subintervals. First, our model divides the
SNR range into subintervals, progressively refining the model to higher SNR
levels, to better capture complex distributions. Next, to ensure the training
objective within each subinterval is accurate, we have conducted rigorous
mathematical derivations. We validate Phased DMD by distilling state-of-the-art
image and video generation models, including Qwen-Image (20B parameters) and
Wan2.2 (28B parameters). Experimental results demonstrate that Phased DMD
preserves output diversity better than DMD while retaining key generative
capabilities. We will release our code and models.