多様性保持型分布マッチング蒸留による高速視覚合成
Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis
February 3, 2026
著者: Tianhe Wu, Ruibin Li, Lei Zhang, Kede Ma
cs.AI
要旨
分布マッチング蒸留(DMD)は、多段階の生成器をその少段階対応モデルに整合させることで、低推論コスト条件下での高品質な生成を実現する。しかしDMDは、その逆KL定式化が本質的にモード追従行動を促進するため、モード崩壊に陥りやすい傾向がある。既存の対策は通常、知覚的または敵対的正則化に依存しており、それ故に多大な計算コストと訓練の不安定性を招いている。本研究では、蒸留段階の役割を明示的に分離する役割分離型蒸留フレームワークを提案する:最初の段階はターゲット予測(例:v-prediction)目標関数によるサンプル多様性の維持に専念し、後続段階は標準DMD損失の下での品質向上に焦点を当てる。この際、DMD目標関数からの勾配は最初の段階でブロックされる。我々はこの手法を多様性保存型DMD(DP-DMD)と称する。本手法は、その簡潔さ(知覚的バックボーンなし、識別器なし、補助ネットワークなし、追加の正解画像なし)にも関わらず、大規模なテキストから画像への実験において、サンプル多様性を保持しつつ、最新手法と同等の視覚的品質を維持する。
English
Distribution matching distillation (DMD) aligns a multi-step generator with its few-step counterpart to enable high-quality generation under low inference cost. However, DMD tends to suffer from mode collapse, as its reverse-KL formulation inherently encourages mode-seeking behavior, for which existing remedies typically rely on perceptual or adversarial regularization, thereby incurring substantial computational overhead and training instability. In this work, we propose a role-separated distillation framework that explicitly disentangles the roles of distilled steps: the first step is dedicated to preserving sample diversity via a target-prediction (e.g., v-prediction) objective, while subsequent steps focus on quality refinement under the standard DMD loss, with gradients from the DMD objective blocked at the first step. We term this approach Diversity-Preserved DMD (DP-DMD), which, despite its simplicity -- no perceptual backbone, no discriminator, no auxiliary networks, and no additional ground-truth images -- preserves sample diversity while maintaining visual quality on par with state-of-the-art methods in extensive text-to-image experiments.