Uni-Instruct: Modelo de Difusão em Uma Etapa através de Instrução Unificada de Divergência de Difusão
Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction
May 27, 2025
Autores: Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun
cs.AI
Resumo
Neste artigo, unificamos mais de 10 abordagens existentes de destilação de difusão em uma única etapa, como Diff-Instruct, DMD, SIM, SiD, f-distill, etc., dentro de uma estrutura teórica que denominamos \emph{Uni-Instruct}. O Uni-Instruct é motivado pela nossa teoria proposta de expansão de difusão da família de divergência f. Em seguida, introduzimos teorias-chave que superam o problema de intratabilidade da divergência f expandida original, resultando em uma função de perda equivalente e tratável que treina efetivamente modelos de difusão em uma única etapa, minimizando a família de divergência f expandida. A nova unificação introduzida pelo Uni-Instruct não apenas oferece contribuições teóricas que ajudam a entender as abordagens existentes de uma perspectiva de alto nível, mas também leva a desempenhos de geração de difusão em uma única etapa de última geração. No benchmark de geração CIFAR10, o Uni-Instruct alcança valores recordes de Distância de Fréchet Inception (FID) de \emph{1,46} para geração incondicional e \emph{1,38} para geração condicional. No benchmark de geração ImageNet-64x64, o Uni-Instruct alcança um novo FID de geração em uma única etapa de \emph{1,02}, superando seu modelo de difusão professor de 79 etapas com uma margem de melhoria significativa de 1,33 (1,02 vs 2,35). Também aplicamos o Uni-Instruct em tarefas mais amplas, como geração de texto para 3D. Para geração de texto para 3D, o Uni-Instruct produz resultados decentes, que superam ligeiramente métodos anteriores, como SDS e VSD, em termos de qualidade e diversidade de geração. Tanto as contribuições teóricas quanto as empíricas sólidas do Uni-Instruct potencialmente ajudarão estudos futuros sobre destilação de difusão em uma única etapa e transferência de conhecimento de modelos de difusão.
English
In this paper, we unify more than 10 existing one-step diffusion distillation
approaches, such as Diff-Instruct, DMD, SIM, SiD, f-distill, etc, inside a
theory-driven framework which we name the \emph{Uni-Instruct}.
Uni-Instruct is motivated by our proposed diffusion expansion theory of the
f-divergence family. Then we introduce key theories that overcome the
intractability issue of the original expanded f-divergence, resulting in an
equivalent yet tractable loss that effectively trains one-step diffusion models
by minimizing the expanded f-divergence family. The novel unification
introduced by Uni-Instruct not only offers new theoretical contributions that
help understand existing approaches from a high-level perspective but also
leads to state-of-the-art one-step diffusion generation performances. On the
CIFAR10 generation benchmark, Uni-Instruct achieves record-breaking Frechet
Inception Distance (FID) values of \emph{1.46} for unconditional
generation and \emph{1.38} for conditional generation. On the
ImageNet-64times 64 generation benchmark, Uni-Instruct achieves a new SoTA
one-step generation FID of \emph{1.02}, which outperforms its 79-step
teacher diffusion with a significant improvement margin of 1.33 (1.02 vs 2.35).
We also apply Uni-Instruct on broader tasks like text-to-3D generation. For
text-to-3D generation, Uni-Instruct gives decent results, which slightly
outperforms previous methods, such as SDS and VSD, in terms of both generation
quality and diversity. Both the solid theoretical and empirical contributions
of Uni-Instruct will potentially help future studies on one-step diffusion
distillation and knowledge transferring of diffusion models.