ChatPaper.aiChatPaper

분리된 DMD: 창으로서의 CFG 증강, 방패로서의 분포 매칭

Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield

November 27, 2025
저자: Dongyang Liu, Peng Gao, David Liu, Ruoyi Du, Zhen Li, Qilong Wu, Xin Jin, Sihan Cao, Shifeng Zhang, Hongsheng Li, Steven Hoi
cs.AI

초록

확산 모델 지식 증류는 효율적인 few-step 및 single-step 생성기를 구축하기 위한 강력한 기법으로 부상했습니다. 그중에서도 Distribution Matching Distillation(DMD)과 그 변형들은 사전 학습된 교사 모델의 출력 분포를 학생 모델이 맞추는 핵심 메커니즘 덕분에 인상적인 성능을 보인다고 널리 알려져 있습니다. 본 연구에서는 이러한 기존의 해석에 의문을 제기합니다. DMD 훈련 목적 함수를 엄밀하게 분해함으로써, CFG가 바람직한 few-step 성능을 위해 일반적으로 필요한 텍스트-이미지 생성과 같은 복잡한 작업에서, few-step 증류의 주된 동인이 분포 매칭이 아니라 우리가 CFG 증강(CA)으로 규명한 이전에 간과된 구성 요소임을 밝혔습니다. 우리는 이 항이 증류의 핵심 "엔진" 역할을 하는 반면, 분포 매칭(DM) 항은 훈련 안정성을 보장하고 인공적 결함을 완화하는 "정규화" 기능을 수행함을 입증합니다. 또한 DM 항이 매우 효과적인 정규화 방법이지만 유일하지는 않으며, 더 단순한 비모수적 제약 조건이나 GAN 기반 목적 함수도 서로 다른 절충점을 가지면서 동일한 안정화 기능을 수행할 수 있음을 보여줌으로써 이러한 역할 분리를 추가로 검증합니다. 이러한 역할 분리는 두 항의 특성에 대한 보다 원칙적인 분석을 가능하게 하여, 더 체계적이고 깊이 있는 이해로 이어집니다. 이러한 새로운 이해는 더 나아가 증류 과정에 대한 원칙적인 수정, 예를 들어 엔진과 정규화를 위한 노이즈 스케줄을 분리하여 성능을 더욱 향상시키는 방법을 제안할 수 있게 합니다. 특히, 우리의 방법은 Z-Image( https://github.com/Tongyi-MAI/Z-Image ) 프로젝트에서 최고 수준의 8-step 이미지 생성 모델 개발에 채택되어 우리 연구 결과의 일반화 성능과 견고성을 경험적으로 입증했습니다.
English
Diffusion model distillation has emerged as a powerful technique for creating efficient few-step and single-step generators. Among these, Distribution Matching Distillation (DMD) and its variants stand out for their impressive performance, which is widely attributed to their core mechanism of matching the student's output distribution to that of a pre-trained teacher model. In this work, we challenge this conventional understanding. Through a rigorous decomposition of the DMD training objective, we reveal that in complex tasks like text-to-image generation, where CFG is typically required for desirable few-step performance, the primary driver of few-step distillation is not distribution matching, but a previously overlooked component we identify as CFG Augmentation (CA). We demonstrate that this term acts as the core ``engine'' of distillation, while the Distribution Matching (DM) term functions as a ``regularizer'' that ensures training stability and mitigates artifacts. We further validate this decoupling by demonstrating that while the DM term is a highly effective regularizer, it is not unique; simpler non-parametric constraints or GAN-based objectives can serve the same stabilizing function, albeit with different trade-offs. This decoupling of labor motivates a more principled analysis of the properties of both terms, leading to a more systematic and in-depth understanding. This new understanding further enables us to propose principled modifications to the distillation process, such as decoupling the noise schedules for the engine and the regularizer, leading to further performance gains. Notably, our method has been adopted by the Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) project to develop a top-tier 8-step image generation model, empirically validating the generalization and robustness of our findings.
PDF111December 2, 2025