Uni-Instruct: 統合拡散ダイバージェンス命令によるワンステップ拡散モデル
Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction
May 27, 2025
著者: Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun
cs.AI
要旨
本論文では、Diff-Instruct、DMD、SIM、SiD、f-distillなど、10以上の既存のワンステップ拡散蒸留手法を、我々が「Uni-Instruct」と名付けた理論駆動型フレームワーク内で統一する。Uni-Instructは、我々が提案するf-ダイバージェンス族の拡散拡張理論に基づいて構築されている。次に、元の拡張f-ダイバージェンスの計算困難性を克服する重要な理論を導入し、拡張f-ダイバージェンス族を最小化することでワンステップ拡散モデルを効果的に訓練する等価かつ計算可能な損失関数を導出する。Uni-Instructによる新たな統一は、既存の手法を高レベルな視点から理解するための新たな理論的貢献を提供するだけでなく、ワンステップ拡散生成において最先端の性能を実現する。CIFAR10生成ベンチマークにおいて、Uni-Instructは無条件生成で1.46、条件付き生成で1.38という記録的なFrechet Inception Distance(FID)値を達成した。ImageNet-64×64生成ベンチマークでは、Uni-Instructはワンステップ生成で1.02という新たなSoTA FIDを達成し、79ステップの教師拡散モデルの2.35を大幅に上回る改善幅(1.02対2.35)を示した。また、Uni-Instructをテキストから3D生成などの幅広いタスクに適用した。テキストから3D生成において、Uni-InstructはSDSやVSDなどの従来手法を生成品質と多様性の両面でわずかに上回る良好な結果を示した。Uni-Instructの確固たる理論的および実証的貢献は、ワンステップ拡散蒸留と拡散モデルの知識転送に関する将来の研究に役立つ可能性がある。
English
In this paper, we unify more than 10 existing one-step diffusion distillation
approaches, such as Diff-Instruct, DMD, SIM, SiD, f-distill, etc, inside a
theory-driven framework which we name the \emph{Uni-Instruct}.
Uni-Instruct is motivated by our proposed diffusion expansion theory of the
f-divergence family. Then we introduce key theories that overcome the
intractability issue of the original expanded f-divergence, resulting in an
equivalent yet tractable loss that effectively trains one-step diffusion models
by minimizing the expanded f-divergence family. The novel unification
introduced by Uni-Instruct not only offers new theoretical contributions that
help understand existing approaches from a high-level perspective but also
leads to state-of-the-art one-step diffusion generation performances. On the
CIFAR10 generation benchmark, Uni-Instruct achieves record-breaking Frechet
Inception Distance (FID) values of \emph{1.46} for unconditional
generation and \emph{1.38} for conditional generation. On the
ImageNet-64times 64 generation benchmark, Uni-Instruct achieves a new SoTA
one-step generation FID of \emph{1.02}, which outperforms its 79-step
teacher diffusion with a significant improvement margin of 1.33 (1.02 vs 2.35).
We also apply Uni-Instruct on broader tasks like text-to-3D generation. For
text-to-3D generation, Uni-Instruct gives decent results, which slightly
outperforms previous methods, such as SDS and VSD, in terms of both generation
quality and diversity. Both the solid theoretical and empirical contributions
of Uni-Instruct will potentially help future studies on one-step diffusion
distillation and knowledge transferring of diffusion models.Summary
AI-Generated Summary