ChatPaper.aiChatPaper

DMD Disaccoppiato: Aumento CFG come Lancia, Adattamento della Distribuzione come Scudo

Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield

November 27, 2025
Autori: Dongyang Liu, Peng Gao, David Liu, Ruoyi Du, Zhen Li, Qilong Wu, Xin Jin, Sihan Cao, Shifeng Zhang, Hongsheng Li, Steven Hoi
cs.AI

Abstract

La distillazione di modelli di diffusione è emersa come una tecnica potente per creare generatori efficienti a pochi passi e a singolo passo. Tra questi, la Distribution Matching Distillation (DMD) e le sue varianti si distinguono per le prestazioni impressionanti, ampiamente attribuite al loro meccanismo centrale di allineamento della distribuzione di output dello studente a quella di un modello insegnante pre-addestrato. In questo lavoro, mettiamo in discussione questa interpretazione convenzionale. Attraverso una rigorosa scomposizione dell'obiettivo di addestramento DMD, riveliamo che in compiti complessi come la generazione di immagini da testo, dove la CFG è tipicamente richiesta per prestazioni desiderabili a pochi passi, il principale motore della distillazione a pochi passi non è l'allineamento distributivo, ma una componente precedentemente trascurata che identifichiamo come CFG Augmentation (CA). Dimostriamo che questo termine agisce come il "motore" centrale della distillazione, mentre il termine Distribution Matching (DM) funge da "regolarizzatore" che garantisce la stabilità dell'addestramento e mitiga gli artefatti. Convalidiamo ulteriormente questa dissociazione dimostrando che, sebbene il termine DM sia un regolarizzatore altamente efficace, non è unico; vincoli non parametrici più semplici o obiettivi basati su GAN possono svolgere la stessa funzione stabilizzante, sebbene con diversi compromessi. Questa dissociazione dei compiti motiva un'analisi più principiata delle proprietà di entrambi i termini, portando a una comprensione più sistematica e approfondita. Questa nuova comprensione ci permette inoltre di proporre modifiche principiate al processo di distillazione, come dissociare gli scheduli del rumore per il motore e il regolarizzatore, portando a ulteriori guadagni prestazionali. Degno di nota, il nostro metodo è stato adottato dal progetto Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) per sviluppare un modello di generazione di immagini di primo livello a 8 passi, convalidando empiricamente la generalizzazione e la robustezza delle nostre scoperte.
English
Diffusion model distillation has emerged as a powerful technique for creating efficient few-step and single-step generators. Among these, Distribution Matching Distillation (DMD) and its variants stand out for their impressive performance, which is widely attributed to their core mechanism of matching the student's output distribution to that of a pre-trained teacher model. In this work, we challenge this conventional understanding. Through a rigorous decomposition of the DMD training objective, we reveal that in complex tasks like text-to-image generation, where CFG is typically required for desirable few-step performance, the primary driver of few-step distillation is not distribution matching, but a previously overlooked component we identify as CFG Augmentation (CA). We demonstrate that this term acts as the core ``engine'' of distillation, while the Distribution Matching (DM) term functions as a ``regularizer'' that ensures training stability and mitigates artifacts. We further validate this decoupling by demonstrating that while the DM term is a highly effective regularizer, it is not unique; simpler non-parametric constraints or GAN-based objectives can serve the same stabilizing function, albeit with different trade-offs. This decoupling of labor motivates a more principled analysis of the properties of both terms, leading to a more systematic and in-depth understanding. This new understanding further enables us to propose principled modifications to the distillation process, such as decoupling the noise schedules for the engine and the regularizer, leading to further performance gains. Notably, our method has been adopted by the Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) project to develop a top-tier 8-step image generation model, empirically validating the generalization and robustness of our findings.
PDF111December 2, 2025