DMD Desacoplado: Aumento de CFG como a Lança, Correspondência de Distribuição como o Escudo

Resumo

A destilação de modelos de difusão emergiu como uma técnica poderosa para criar geradores eficientes de poucos passos e de passo único. Entre estes, a Destilação por Correspondência de Distribuição (DMD) e suas variantes destacam-se pelo seu desempenho impressionante, amplamente atribuído ao seu mecanismo central de correspondência da distribuição de saída do estudante com a de um modelo professor pré-treinado. Neste trabalho, questionamos esta compreensão convencional. Através de uma decomposição rigorosa do objetivo de treinamento do DMD, revelamos que em tarefas complexas como a geração de texto para imagem, onde o CFG é tipicamente necessário para um desempenho desejável em poucos passos, o principal impulsionador da destilação de poucos passos não é a correspondência de distribuição, mas um componente previamente negligenciado que identificamos como Aumento de CFG (CA). Demonstramos que este termo atua como o "motor" central da destilação, enquanto o termo de Correspondência de Distribuição (DM) funciona como um "regularizador" que garante a estabilidade do treinamento e mitiga artefactos. Validamos ainda esta dissociação demonstrando que, embora o termo DM seja um regularizador altamente eficaz, ele não é único; restrições não paramétricas mais simples ou objetivos baseados em GAN podem desempenhar a mesma função de estabilização, ainda que com diferentes compensações. Esta dissociação de funções motiva uma análise mais fundamentada das propriedades de ambos os termos, conduzindo a uma compreensão mais sistemática e aprofundada. Esta nova compreensão permite-nos ainda propor modificações fundamentadas ao processo de destilação, como a dissociação dos cronogramas de ruído para o motor e o regularizador, resultando em ganhos adicionais de desempenho. Notavelmente, o nosso método foi adotado pelo projeto Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) para desenvolver um modelo de geração de imagens de topo de 8 passos, validando empiricamente a generalização e robustez das nossas descobertas.

English

Diffusion model distillation has emerged as a powerful technique for creating efficient few-step and single-step generators. Among these, Distribution Matching Distillation (DMD) and its variants stand out for their impressive performance, which is widely attributed to their core mechanism of matching the student's output distribution to that of a pre-trained teacher model. In this work, we challenge this conventional understanding. Through a rigorous decomposition of the DMD training objective, we reveal that in complex tasks like text-to-image generation, where CFG is typically required for desirable few-step performance, the primary driver of few-step distillation is not distribution matching, but a previously overlooked component we identify as CFG Augmentation (CA). We demonstrate that this term acts as the core ``engine'' of distillation, while the Distribution Matching (DM) term functions as a ``regularizer'' that ensures training stability and mitigates artifacts. We further validate this decoupling by demonstrating that while the DM term is a highly effective regularizer, it is not unique; simpler non-parametric constraints or GAN-based objectives can serve the same stabilizing function, albeit with different trade-offs. This decoupling of labor motivates a more principled analysis of the properties of both terms, leading to a more systematic and in-depth understanding. This new understanding further enables us to propose principled modifications to the distillation process, such as decoupling the noise schedules for the engine and the regularizer, leading to further performance gains. Notably, our method has been adopted by the Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) project to develop a top-tier 8-step image generation model, empirically validating the generalization and robustness of our findings.

DMD Desacoplado: Aumento de CFG como a Lança, Correspondência de Distribuição como o Escudo

Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield

Resumo

Support