Uni-Instruct : Modèle de diffusion en une étape via une instruction unifiée de divergence de diffusion
Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction
May 27, 2025
Auteurs: Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun
cs.AI
Résumé
Dans cet article, nous unifions plus de 10 approches existantes de distillation de diffusion en une étape, telles que Diff-Instruct, DMD, SIM, SiD, f-distill, etc., au sein d'un cadre théorique que nous nommons \emph{Uni-Instruct}. Uni-Instruct est motivé par notre théorie proposée d'expansion de diffusion de la famille des f-divergences. Nous introduisons ensuite des théories clés qui surmontent le problème d'intractabilité de la f-divergence étendue originale, aboutissant à une fonction de perte équivalente mais traitable qui entraîne efficacement les modèles de diffusion en une étape en minimisant la famille des f-divergences étendues. La nouvelle unification introduite par Uni-Instruct offre non seulement des contributions théoriques qui aident à comprendre les approches existantes d'un point de vue global, mais conduit également à des performances de génération en une étape de pointe. Sur le benchmark de génération CIFAR10, Uni-Instruct atteint des valeurs record de Distance de Fréchet Inception (FID) de \emph{1,46} pour la génération non conditionnelle et de \emph{1,38} pour la génération conditionnelle. Sur le benchmark de génération ImageNet-64 × 64, Uni-Instruct atteint un nouveau FID de génération en une étape de \emph{1,02}, surpassant son modèle de diffusion enseignant en 79 étapes avec une marge d'amélioration significative de 1,33 (1,02 contre 2,35). Nous appliquons également Uni-Instruct à des tâches plus larges comme la génération de texte en 3D. Pour la génération de texte en 3D, Uni-Instruct donne des résultats décents, surpassant légèrement les méthodes précédentes, telles que SDS et VSD, en termes de qualité et de diversité de génération. Les contributions théoriques et empiriques solides d'Uni-Instruct pourront potentiellement aider les études futures sur la distillation de diffusion en une étape et le transfert de connaissances des modèles de diffusion.
English
In this paper, we unify more than 10 existing one-step diffusion distillation
approaches, such as Diff-Instruct, DMD, SIM, SiD, f-distill, etc, inside a
theory-driven framework which we name the \emph{Uni-Instruct}.
Uni-Instruct is motivated by our proposed diffusion expansion theory of the
f-divergence family. Then we introduce key theories that overcome the
intractability issue of the original expanded f-divergence, resulting in an
equivalent yet tractable loss that effectively trains one-step diffusion models
by minimizing the expanded f-divergence family. The novel unification
introduced by Uni-Instruct not only offers new theoretical contributions that
help understand existing approaches from a high-level perspective but also
leads to state-of-the-art one-step diffusion generation performances. On the
CIFAR10 generation benchmark, Uni-Instruct achieves record-breaking Frechet
Inception Distance (FID) values of \emph{1.46} for unconditional
generation and \emph{1.38} for conditional generation. On the
ImageNet-64times 64 generation benchmark, Uni-Instruct achieves a new SoTA
one-step generation FID of \emph{1.02}, which outperforms its 79-step
teacher diffusion with a significant improvement margin of 1.33 (1.02 vs 2.35).
We also apply Uni-Instruct on broader tasks like text-to-3D generation. For
text-to-3D generation, Uni-Instruct gives decent results, which slightly
outperforms previous methods, such as SDS and VSD, in terms of both generation
quality and diversity. Both the solid theoretical and empirical contributions
of Uni-Instruct will potentially help future studies on one-step diffusion
distillation and knowledge transferring of diffusion models.Summary
AI-Generated Summary