Uni-Instruct: Modelo de Difusão em Uma Etapa através de Instrução Unificada de Divergência de Difusão

Resumo

Neste artigo, unificamos mais de 10 abordagens existentes de destilação de difusão em uma única etapa, como Diff-Instruct, DMD, SIM, SiD, f-distill, etc., dentro de uma estrutura teórica que denominamos \emph{Uni-Instruct}. O Uni-Instruct é motivado pela nossa teoria proposta de expansão de difusão da família de divergência f. Em seguida, introduzimos teorias-chave que superam o problema de intratabilidade da divergência f expandida original, resultando em uma função de perda equivalente e tratável que treina efetivamente modelos de difusão em uma única etapa, minimizando a família de divergência f expandida. A nova unificação introduzida pelo Uni-Instruct não apenas oferece contribuições teóricas que ajudam a entender as abordagens existentes de uma perspectiva de alto nível, mas também leva a desempenhos de geração de difusão em uma única etapa de última geração. No benchmark de geração CIFAR10, o Uni-Instruct alcança valores recordes de Distância de Fréchet Inception (FID) de \emph{1,46} para geração incondicional e \emph{1,38} para geração condicional. No benchmark de geração ImageNet-64x64, o Uni-Instruct alcança um novo FID de geração em uma única etapa de \emph{1,02}, superando seu modelo de difusão professor de 79 etapas com uma margem de melhoria significativa de 1,33 (1,02 vs 2,35). Também aplicamos o Uni-Instruct em tarefas mais amplas, como geração de texto para 3D. Para geração de texto para 3D, o Uni-Instruct produz resultados decentes, que superam ligeiramente métodos anteriores, como SDS e VSD, em termos de qualidade e diversidade de geração. Tanto as contribuições teóricas quanto as empíricas sólidas do Uni-Instruct potencialmente ajudarão estudos futuros sobre destilação de difusão em uma única etapa e transferência de conhecimento de modelos de difusão.

English

In this paper, we unify more than 10 existing one-step diffusion distillation approaches, such as Diff-Instruct, DMD, SIM, SiD, f-distill, etc, inside a theory-driven framework which we name the \emph{Uni-Instruct}. Uni-Instruct is motivated by our proposed diffusion expansion theory of the f-divergence family. Then we introduce key theories that overcome the intractability issue of the original expanded f-divergence, resulting in an equivalent yet tractable loss that effectively trains one-step diffusion models by minimizing the expanded f-divergence family. The novel unification introduced by Uni-Instruct not only offers new theoretical contributions that help understand existing approaches from a high-level perspective but also leads to state-of-the-art one-step diffusion generation performances. On the CIFAR10 generation benchmark, Uni-Instruct achieves record-breaking Frechet Inception Distance (FID) values of \emph{1.46} for unconditional generation and \emph{1.38} for conditional generation. On the ImageNet-64times 64 generation benchmark, Uni-Instruct achieves a new SoTA one-step generation FID of \emph{1.02}, which outperforms its 79-step teacher diffusion with a significant improvement margin of 1.33 (1.02 vs 2.35). We also apply Uni-Instruct on broader tasks like text-to-3D generation. For text-to-3D generation, Uni-Instruct gives decent results, which slightly outperforms previous methods, such as SDS and VSD, in terms of both generation quality and diversity. Both the solid theoretical and empirical contributions of Uni-Instruct will potentially help future studies on one-step diffusion distillation and knowledge transferring of diffusion models.

Uni-Instruct: Modelo de Difusão em Uma Etapa através de Instrução Unificada de Divergência de Difusão

Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction

Resumo

Support