ChatPaper.aiChatPaper

分離型DMD:CFG拡張を矛とし、分布マッチングを盾として

Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield

November 27, 2025
著者: Dongyang Liu, Peng Gao, David Liu, Ruoyi Du, Zhen Li, Qilong Wu, Xin Jin, Sihan Cao, Shifeng Zhang, Hongsheng Li, Steven Hoi
cs.AI

要旨

拡散モデルの蒸留は、効率的な少数ステップおよび単一ステップ生成器を構築する強力な技術として登場している。中でもDistribution Matching Distillation(DMD)とその変種は、その印象的な性能により注目を集めており、これは一般に、生徒モデルの出力分布を事前学習済み教師モデルの分布に一致させるという中核メカニズムに起因すると広く考えられてきた。本研究では、この従来の理解に異議を唱える。DMDの訓練目的関数を厳密に分解することにより、テキストから画像への生成のような複雑なタスク(望ましい少数ステップ性能を得るには通常CFGが必要とされる)において、少数ステップ蒸留の主要な推進要因は分布マッチングではなく、我々がCFG Augmentation(CA)と同定した、これまで見過ごされてきた構成要素であることを明らかにする。我々は、この項が蒸留の核となる「エンジン」として機能し、一方でDistribution Matching(DM)項は訓練の安定性を確保し、アーティファクトを軽減する「正則化項」として機能することを実証する。さらに、DM項が極めて効果的な正則化項である一方で、それは唯一無二のものではなく、より単純な非パラメトリックな制約やGANベースの目的関数も、異なるトレードオフはあるものの、同様の安定化機能を果たし得ることを示すことで、この分離を検証する。この役割の分離は、両項の特性についてより原理に基づいた分析を動機づけ、より体系的かつ深い理解をもたらす。この新たな理解はさらに、蒸留プロセスへの原理に基づいた修正、例えばエンジンと正則化項のノイズスケジュールを分離するといった提案を可能にし、さらなる性能向上を導く。特筆すべきは、我々の手法がZ-Image( https://github.com/Tongyi-MAI/Z-Image )プロジェクトにおいて、最高水準の8ステップ画像生成モデルの開発に採用され、我々の発見の一般性と頑健性が経験的に検証されたことである。
English
Diffusion model distillation has emerged as a powerful technique for creating efficient few-step and single-step generators. Among these, Distribution Matching Distillation (DMD) and its variants stand out for their impressive performance, which is widely attributed to their core mechanism of matching the student's output distribution to that of a pre-trained teacher model. In this work, we challenge this conventional understanding. Through a rigorous decomposition of the DMD training objective, we reveal that in complex tasks like text-to-image generation, where CFG is typically required for desirable few-step performance, the primary driver of few-step distillation is not distribution matching, but a previously overlooked component we identify as CFG Augmentation (CA). We demonstrate that this term acts as the core ``engine'' of distillation, while the Distribution Matching (DM) term functions as a ``regularizer'' that ensures training stability and mitigates artifacts. We further validate this decoupling by demonstrating that while the DM term is a highly effective regularizer, it is not unique; simpler non-parametric constraints or GAN-based objectives can serve the same stabilizing function, albeit with different trade-offs. This decoupling of labor motivates a more principled analysis of the properties of both terms, leading to a more systematic and in-depth understanding. This new understanding further enables us to propose principled modifications to the distillation process, such as decoupling the noise schedules for the engine and the regularizer, leading to further performance gains. Notably, our method has been adopted by the Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) project to develop a top-tier 8-step image generation model, empirically validating the generalization and robustness of our findings.
PDF111December 2, 2025