ChatPaper.aiChatPaper

빠른 시각적 생성을 위한 다양성 보존 분포 매칭 증류

Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis

February 3, 2026
저자: Tianhe Wu, Ruibin Li, Lei Zhang, Kede Ma
cs.AI

초록

분포 매칭 증류(DMD)는 다단계 생성기를 적은 단계의 대응 모델과 정렬하여 낮은 추론 비용으로 고품질 생성을 가능하게 합니다. 그러나 DMD는 역-KL 공식이 본질적으로 모드 탐색 행동을 장려하기 때문에 모드 붕괴에 취약한 경향이 있으며, 기존 해결책은 일반적으로 지각적 또는 적대적 정규화에 의존하여 상당한 계산 부하와 훈련 불안정성을 초래합니다. 본 연구에서는 증류 단계의 역할을 명시적으로 분리하는 역할 분리 증류 프레임워크를 제안합니다: 첫 번째 단계는 목표 예측(예: v-예측) 목적 함수를 통해 샘플 다양성 보존에 전담하고, 이후 단계는 표준 DMD 손실 하에서 품질 개선에 집중하며, DMD 목적 함수의 기울기는 첫 번째 단계에서 차단됩니다. 우리는 이 방법을 다양성 보존 DMD(DP-DMD)로 명명하며, 이는 매우 간단함(지각적 백본, 판별자, 보조 네트워크, 추가 실제 이미지 없음)에도 불구하고, 광범위한 텍스트-이미지 실험에서 최신 방법과 동등한 시각적 품질을 유지하면서 샘플 다양성을 보존합니다.
English
Distribution matching distillation (DMD) aligns a multi-step generator with its few-step counterpart to enable high-quality generation under low inference cost. However, DMD tends to suffer from mode collapse, as its reverse-KL formulation inherently encourages mode-seeking behavior, for which existing remedies typically rely on perceptual or adversarial regularization, thereby incurring substantial computational overhead and training instability. In this work, we propose a role-separated distillation framework that explicitly disentangles the roles of distilled steps: the first step is dedicated to preserving sample diversity via a target-prediction (e.g., v-prediction) objective, while subsequent steps focus on quality refinement under the standard DMD loss, with gradients from the DMD objective blocked at the first step. We term this approach Diversity-Preserved DMD (DP-DMD), which, despite its simplicity -- no perceptual backbone, no discriminator, no auxiliary networks, and no additional ground-truth images -- preserves sample diversity while maintaining visual quality on par with state-of-the-art methods in extensive text-to-image experiments.
PDF312February 5, 2026