DMD Desacoplado: Aumento de CFG como Lanza, Emparejamiento de Distribución como Escudo
Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield
November 27, 2025
Autores: Dongyang Liu, Peng Gao, David Liu, Ruoyi Du, Zhen Li, Qilong Wu, Xin Jin, Sihan Cao, Shifeng Zhang, Hongsheng Li, Steven Hoi
cs.AI
Resumen
La destilación de modelos de difusión ha surgido como una técnica poderosa para crear generadores eficientes de pocos pasos y de un solo paso. Entre estos, la Destilación por Correspondencia de Distribuciones (DMD) y sus variantes destacan por su impresionante rendimiento, el cual se atribuye ampliamente a su mecanismo central de hacer coincidir la distribución de salida del estudiante con la de un modelo profesor preentrenado. En este trabajo, cuestionamos esta comprensión convencional. Mediante una descomposición rigurosa del objetivo de entrenamiento de DMD, revelamos que en tareas complejas como la generación de texto a imagen, donde típicamente se requiere CFG para un rendimiento deseable en pocos pasos, el principal impulsor de la destilación de pocos pasos no es la correspondencia de distribuciones, sino un componente previamente pasado por alto que identificamos como Aumento de CFG (CA). Demostramos que este término actúa como el "motor" central de la destilación, mientras que el término de Correspondencia de Distribuciones (DM) funciona como un "regularizador" que garantiza la estabilidad del entrenamiento y mitiga artefactos. Validamos aún más este desacoplamiento demostrando que, si bien el término DM es un regularizador altamente efectivo, no es único; restricciones no paramétricas más simples u objetivos basados en GAN pueden cumplir la misma función estabilizadora, aunque con diferentes compensaciones. Este desacoplamiento de funciones motiva un análisis más fundamentado de las propiedades de ambos términos, conduciendo a una comprensión más sistemática y profunda. Esta nueva comprensión nos permite además proponer modificaciones fundamentadas al proceso de destilación, como desacoplar los programas de ruido para el motor y el regularizador, lo que conduce a ganancias adicionales de rendimiento. Cabe destacar que nuestro método ha sido adoptado por el proyecto Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) para desarrollar un modelo de generación de imágenes de primer nivel en 8 pasos, validando empíricamente la generalización y robustez de nuestros hallazgos.
English
Diffusion model distillation has emerged as a powerful technique for creating efficient few-step and single-step generators. Among these, Distribution Matching Distillation (DMD) and its variants stand out for their impressive performance, which is widely attributed to their core mechanism of matching the student's output distribution to that of a pre-trained teacher model. In this work, we challenge this conventional understanding. Through a rigorous decomposition of the DMD training objective, we reveal that in complex tasks like text-to-image generation, where CFG is typically required for desirable few-step performance, the primary driver of few-step distillation is not distribution matching, but a previously overlooked component we identify as CFG Augmentation (CA). We demonstrate that this term acts as the core ``engine'' of distillation, while the Distribution Matching (DM) term functions as a ``regularizer'' that ensures training stability and mitigates artifacts. We further validate this decoupling by demonstrating that while the DM term is a highly effective regularizer, it is not unique; simpler non-parametric constraints or GAN-based objectives can serve the same stabilizing function, albeit with different trade-offs. This decoupling of labor motivates a more principled analysis of the properties of both terms, leading to a more systematic and in-depth understanding. This new understanding further enables us to propose principled modifications to the distillation process, such as decoupling the noise schedules for the engine and the regularizer, leading to further performance gains. Notably, our method has been adopted by the Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) project to develop a top-tier 8-step image generation model, empirically validating the generalization and robustness of our findings.