Uni-Instruct: Ein Ein-Schritt-Diffusionsmodell durch vereinheitlichte Divergenzanweisung für Diffusion
Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction
May 27, 2025
papers.authors: Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun
cs.AI
papers.abstract
In diesem Artikel vereinheitlichen wir mehr als 10 bestehende Ansätze zur Ein-Schritt-Diffusionsdestillation, wie Diff-Instruct, DMD, SIM, SiD, f-distill usw., innerhalb eines theoriegestützten Frameworks, das wir als \emph{Uni-Instruct} bezeichnen. Uni-Instruct wird durch unsere vorgeschlagene Diffusionsexpansionstheorie der f-Divergenz-Familie motiviert. Anschließend führen wir Schlüsseltheorien ein, die die Intraktabilität der ursprünglich erweiterten f-Divergenz überwinden, was zu einem äquivalenten, jedoch handhabbaren Verlust führt, der Ein-Schritt-Diffusionsmodelle effektiv trainiert, indem die erweiterte f-Divergenz-Familie minimiert wird. Die neuartige Vereinheitlichung durch Uni-Instruct bietet nicht nur neue theoretische Beiträge, die helfen, bestehende Ansätze aus einer übergeordneten Perspektive zu verstehen, sondern führt auch zu state-of-the-art Ergebnissen bei der Ein-Schritt-Diffusionsgenerierung. Auf dem CIFAR10-Generierungsbenchmark erreicht Uni-Instruct rekordverdächtige Frechet-Inception-Distance (FID)-Werte von \emph{1,46} für die unkonditionierte Generierung und \emph{1,38} für die konditionierte Generierung. Auf dem ImageNet-64x64-Generierungsbenchmark erreicht Uni-Instruct einen neuen SoTA-FID für die Ein-Schritt-Generierung von \emph{1,02}, was seinen 79-Schritt-Lehrer-Diffusionsprozess mit einem signifikanten Verbesserungsspielraum von 1,33 (1,02 vs. 2,35) übertrifft. Wir wenden Uni-Instruct auch auf breitere Aufgaben wie die Text-zu-3D-Generierung an. Für die Text-zu-3D-Generierung liefert Uni-Instruct ansprechende Ergebnisse, die frühere Methoden wie SDS und VSD in Bezug auf Generierungsqualität und Diversität leicht übertreffen. Sowohl die soliden theoretischen als auch empirischen Beiträge von Uni-Instruct werden potenziell zukünftige Studien zur Ein-Schritt-Diffusionsdestillation und zum Wissenstransfer von Diffusionsmodellen unterstützen.
English
In this paper, we unify more than 10 existing one-step diffusion distillation
approaches, such as Diff-Instruct, DMD, SIM, SiD, f-distill, etc, inside a
theory-driven framework which we name the \emph{Uni-Instruct}.
Uni-Instruct is motivated by our proposed diffusion expansion theory of the
f-divergence family. Then we introduce key theories that overcome the
intractability issue of the original expanded f-divergence, resulting in an
equivalent yet tractable loss that effectively trains one-step diffusion models
by minimizing the expanded f-divergence family. The novel unification
introduced by Uni-Instruct not only offers new theoretical contributions that
help understand existing approaches from a high-level perspective but also
leads to state-of-the-art one-step diffusion generation performances. On the
CIFAR10 generation benchmark, Uni-Instruct achieves record-breaking Frechet
Inception Distance (FID) values of \emph{1.46} for unconditional
generation and \emph{1.38} for conditional generation. On the
ImageNet-64times 64 generation benchmark, Uni-Instruct achieves a new SoTA
one-step generation FID of \emph{1.02}, which outperforms its 79-step
teacher diffusion with a significant improvement margin of 1.33 (1.02 vs 2.35).
We also apply Uni-Instruct on broader tasks like text-to-3D generation. For
text-to-3D generation, Uni-Instruct gives decent results, which slightly
outperforms previous methods, such as SDS and VSD, in terms of both generation
quality and diversity. Both the solid theoretical and empirical contributions
of Uni-Instruct will potentially help future studies on one-step diffusion
distillation and knowledge transferring of diffusion models.