ChatPaper.aiChatPaper

Разделенный DMD: Усиление CFG как копье, согласование распределений как щит

Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield

November 27, 2025
Авторы: Dongyang Liu, Peng Gao, David Liu, Ruoyi Du, Zhen Li, Qilong Wu, Xin Jin, Sihan Cao, Shifeng Zhang, Hongsheng Li, Steven Hoi
cs.AI

Аннотация

Дистилляция диффузионных моделей стала мощной методикой для создания эффективных генераторов с малым и однократным числом шагов. Среди них Distillation Matching Distillation (DMD) и её варианты выделяются впечатляющей производительностью, что обычно связывают с их основным механизмом — согласованием распределения выходных данных ученика с распределением предварительно обученной модели-учителя. В данной работе мы оспариваем это устоявшееся представление. Посредством строгой декомпозиции целевой функции обучения DMD мы показываем, что в сложных задачах, таких как генерация изображений по тексту, где для достижения желаемой производительности при малом числе шагов обычно требуется CFG (Classifier-Free Guidance), главным драйвером дистилляции является не согласование распределений, а ранее упускавшийся из виду компонент, который мы определяем как CFG-аугментация (CA). Мы демонстрируем, что этот член действует как центральный «двигатель» дистилляции, в то время как член согласования распределений (DM) функционирует как «регуляризатор», обеспечивающий стабильность обучения и снижающий артефакты. Мы дополнительно подтверждаем это разделение, показывая, что хотя член DM является высокоэффективным регуляризатором, он не уникален; более простые непараметрические ограничения или цели на основе GAN могут выполнять ту же стабилизирующую функцию, хотя и с различными компромиссами. Такое разделение функций мотивирует более принципиальный анализ свойств обоих членов, ведущий к более систематическому и глубокому пониманию. Это новое понимание, в свою очередь, позволяет нам предложить принципиальные модификации процесса дистилляции, такие как разделение графиков шума для «двигателя» и регуляризатора, что приводит к дальнейшему повышению производительности. Примечательно, что наш метод был принят проектом Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) для разработки высококлассной модели генерации изображений за 8 шагов, что эмпирически подтверждает обобщаемость и надежность наших выводов.
English
Diffusion model distillation has emerged as a powerful technique for creating efficient few-step and single-step generators. Among these, Distribution Matching Distillation (DMD) and its variants stand out for their impressive performance, which is widely attributed to their core mechanism of matching the student's output distribution to that of a pre-trained teacher model. In this work, we challenge this conventional understanding. Through a rigorous decomposition of the DMD training objective, we reveal that in complex tasks like text-to-image generation, where CFG is typically required for desirable few-step performance, the primary driver of few-step distillation is not distribution matching, but a previously overlooked component we identify as CFG Augmentation (CA). We demonstrate that this term acts as the core ``engine'' of distillation, while the Distribution Matching (DM) term functions as a ``regularizer'' that ensures training stability and mitigates artifacts. We further validate this decoupling by demonstrating that while the DM term is a highly effective regularizer, it is not unique; simpler non-parametric constraints or GAN-based objectives can serve the same stabilizing function, albeit with different trade-offs. This decoupling of labor motivates a more principled analysis of the properties of both terms, leading to a more systematic and in-depth understanding. This new understanding further enables us to propose principled modifications to the distillation process, such as decoupling the noise schedules for the engine and the regularizer, leading to further performance gains. Notably, our method has been adopted by the Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) project to develop a top-tier 8-step image generation model, empirically validating the generalization and robustness of our findings.
PDF111December 2, 2025