Фазовый DMD: дистилляция согласования распределений за несколько шагов с помощью оценки соответствия в подынтервалах
Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals
October 31, 2025
Авторы: Xiangyu Fan, Zesong Qiu, Zhuguanyu Wu, Fanzhou Wang, Zhiqian Lin, Tianxiang Ren, Dahua Lin, Ruihao Gong, Lei Yang
cs.AI
Аннотация
Метод согласования распределений с дистилляцией (DMD) позволяет дистиллировать генеративные модели на основе оценок в эффективные одношаговые генераторы, не требуя однозначного соответствия траекториям сэмплирования их учителей. Однако ограниченная ёмкость модели приводит к тому, что одношаговые дистиллированные модели демонстрируют низкую производительность на сложных генеративных задачах, например, при синтезе замысловатых движений объектов в генерации видео по тексту. Прямое расширение DMD до многошаговой дистилляции увеличивает потребление памяти и вычислительную глубину, что приводит к нестабильности и снижению эффективности. Хотя предыдущие работы предлагали стохастическое усечение градиента как потенциальное решение, мы наблюдаем, что оно существенно снижает разнообразие генерации многошаговых дистиллированных моделей, опуская его до уровня их одношаговых аналогов. Для преодоления этих ограничений мы предлагаем Phased DMD — фреймворк многошаговой дистилляции, объединяющий идею поэтапной дистилляции с методом смеси экспертов (MoE), что снижает сложность обучения при одновременном увеличении ёмкости модели. Phased DMD основан на двух ключевых идеях: прогрессивном согласовании распределений и согласовании оценок внутри подынтервалов. Во-первых, наша модель делит диапазон SNR на подынтервалы, постепенно улучшая модель до более высоких уровней SNR для лучшего захвата сложных распределений. Далее, для обеспечения точности целевой функции обучения в каждом подынтервале мы провели строгие математические выкладки. Мы проверяем Phased DMD, дистиллируя передовые модели генерации изображений и видео, включая Qwen-Image (20 млрд параметров) и Wan2.2 (28 млрд параметров). Экспериментальные результаты демонстрируют, что Phased DMD сохраняет разнообразие выходных данных лучше, чем DMD, при сохранении ключевых генеративных способностей. Мы опубликуем наш код и модели.
English
Distribution Matching Distillation (DMD) distills score-based generative
models into efficient one-step generators, without requiring a one-to-one
correspondence with the sampling trajectories of their teachers. However,
limited model capacity causes one-step distilled models underperform on complex
generative tasks, e.g., synthesizing intricate object motions in text-to-video
generation. Directly extending DMD to multi-step distillation increases memory
usage and computational depth, leading to instability and reduced efficiency.
While prior works propose stochastic gradient truncation as a potential
solution, we observe that it substantially reduces the generation diversity of
multi-step distilled models, bringing it down to the level of their one-step
counterparts. To address these limitations, we propose Phased DMD, a multi-step
distillation framework that bridges the idea of phase-wise distillation with
Mixture-of-Experts (MoE), reducing learning difficulty while enhancing model
capacity. Phased DMD is built upon two key ideas: progressive distribution
matching and score matching within subintervals. First, our model divides the
SNR range into subintervals, progressively refining the model to higher SNR
levels, to better capture complex distributions. Next, to ensure the training
objective within each subinterval is accurate, we have conducted rigorous
mathematical derivations. We validate Phased DMD by distilling state-of-the-art
image and video generation models, including Qwen-Image (20B parameters) and
Wan2.2 (28B parameters). Experimental results demonstrate that Phased DMD
preserves output diversity better than DMD while retaining key generative
capabilities. We will release our code and models.