ChatPaper.aiChatPaper

단계적 DMD: 부분 구간 내 점수 매칭을 통한 소수 단계 분포 매칭 증류

Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals

October 31, 2025
저자: Xiangyu Fan, Zesong Qiu, Zhuguanyu Wu, Fanzhou Wang, Zhiqian Lin, Tianxiang Ren, Dahua Lin, Ruihao Gong, Lei Yang
cs.AI

초록

분포 매칭 증류(DMD)는 교사 모델의 샘플링 궤적과 일대일 대응을 요구하지 않으면서 점수 기반 생성 모델을 효율적인 단일 단계 생성기로 증류합니다. 그러나 제한된 모델 용량으로 인해 단일 단계 증류 모델은 텍스트-비디오 생성에서 복잡한 객체 운동을 합성하는 것과 같은 정교한 생성 작업에서 성능이 낮습니다. DMD를 다중 단계 증류로 직접 확장하면 메모리 사용량과 계산 깊이가 증가하여 불안정성과 효율성 저하를 초래합니다. 기존 연구에서는 확률적 경사도 절단을 잠재적 해결책으로 제안했지만, 우리는 이 방법이 다중 단계 증류 모델의 생성 다양성을 단일 단계 모델 수준으로 크게 감소시킨다는 사실을 관찰했습니다. 이러한 한계를 해결하기 위해 우리는 단계별 증류 개념과 전문가 혼합(MoE)을 결합하여 학습 난이도를 줄이면서 모델 용량을 향상시키는 다중 단계 증류 프레임워크인 단계적 DMD를 제안합니다. 단계적 DMD는 두 가지 핵심 아이디어인 점진적 분포 매칭과 부분 구간 내 점수 매칭을 기반으로 합니다. 먼저, 우리 모델은 SNR 범위를 부분 구간으로 나누어 더 높은 SNR 수준으로 모델을 점진적으로 정제함으로써 복잡한 분포를 더 잘 포착합니다. 다음으로, 각 부분 구간 내 학습 목표의 정확성을 보장하기 위해 엄격한 수학적 유도를 수행했습니다. 우리는 Qwen-Image(200억 매개변수) 및 Wan2.2(280억 매개변수)를 포함한 최첨단 이미지 및 비디오 생성 모델을 증류하여 단계적 DMD를 검증했습니다. 실험 결과는 단계적 DMD가 핵심 생성 능력을 유지하면서 DMD보다 출력 다양성을 더 잘 보존함을 보여줍니다. 우리는 코드와 모델을 공개할 예정입니다.
English
Distribution Matching Distillation (DMD) distills score-based generative models into efficient one-step generators, without requiring a one-to-one correspondence with the sampling trajectories of their teachers. However, limited model capacity causes one-step distilled models underperform on complex generative tasks, e.g., synthesizing intricate object motions in text-to-video generation. Directly extending DMD to multi-step distillation increases memory usage and computational depth, leading to instability and reduced efficiency. While prior works propose stochastic gradient truncation as a potential solution, we observe that it substantially reduces the generation diversity of multi-step distilled models, bringing it down to the level of their one-step counterparts. To address these limitations, we propose Phased DMD, a multi-step distillation framework that bridges the idea of phase-wise distillation with Mixture-of-Experts (MoE), reducing learning difficulty while enhancing model capacity. Phased DMD is built upon two key ideas: progressive distribution matching and score matching within subintervals. First, our model divides the SNR range into subintervals, progressively refining the model to higher SNR levels, to better capture complex distributions. Next, to ensure the training objective within each subinterval is accurate, we have conducted rigorous mathematical derivations. We validate Phased DMD by distilling state-of-the-art image and video generation models, including Qwen-Image (20B parameters) and Wan2.2 (28B parameters). Experimental results demonstrate that Phased DMD preserves output diversity better than DMD while retaining key generative capabilities. We will release our code and models.
PDF231February 7, 2026