Uni-Instruct: Modello di Diffusione in un Passo tramite Istruzione Unificata della Divergenza di Diffusione
Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction
May 27, 2025
Autori: Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun
cs.AI
Abstract
In questo articolo, unifichiamo più di 10 approcci esistenti di distillazione one-step per la diffusione, come Diff-Instruct, DMD, SIM, SiD, f-distill, ecc., all'interno di un framework teorico che abbiamo denominato \emph{Uni-Instruct}. Uni-Instruct è motivato dalla nostra teoria proposta di espansione della diffusione per la famiglia delle f-divergenze. Introduciamo quindi teorie chiave che superano il problema di intrattabilità della f-divergenza espansa originale, ottenendo una funzione di perdita equivalente ma trattabile che addestra efficacemente modelli di diffusione one-step minimizzando la famiglia delle f-divergenze espanse. La nuova unificazione introdotta da Uni-Instruct non solo offre contributi teorici che aiutano a comprendere gli approcci esistenti da una prospettiva di alto livello, ma porta anche a prestazioni all'avanguardia nella generazione one-step con diffusione. Sul benchmark di generazione CIFAR10, Uni-Instruct raggiunge valori record di Frechet Inception Distance (FID) di \emph{1.46} per la generazione incondizionata e \emph{1.38} per la generazione condizionata. Sul benchmark di generazione ImageNet-64x64, Uni-Instruct raggiunge un nuovo SoTA FID di generazione one-step di \emph{1.02}, superando il suo modello di diffusione insegnante a 79 passi con un margine di miglioramento significativo di 1.33 (1.02 vs 2.35). Applichiamo inoltre Uni-Instruct a compiti più ampi come la generazione testo-3D. Per la generazione testo-3D, Uni-Instruct fornisce risultati decenti, che superano leggermente i metodi precedenti, come SDS e VSD, sia in termini di qualità che di diversità della generazione. Sia i solidi contributi teorici che empirici di Uni-Instruct potranno potenzialmente aiutare studi futuri sulla distillazione one-step della diffusione e sul trasferimento di conoscenza nei modelli di diffusione.
English
In this paper, we unify more than 10 existing one-step diffusion distillation
approaches, such as Diff-Instruct, DMD, SIM, SiD, f-distill, etc, inside a
theory-driven framework which we name the \emph{Uni-Instruct}.
Uni-Instruct is motivated by our proposed diffusion expansion theory of the
f-divergence family. Then we introduce key theories that overcome the
intractability issue of the original expanded f-divergence, resulting in an
equivalent yet tractable loss that effectively trains one-step diffusion models
by minimizing the expanded f-divergence family. The novel unification
introduced by Uni-Instruct not only offers new theoretical contributions that
help understand existing approaches from a high-level perspective but also
leads to state-of-the-art one-step diffusion generation performances. On the
CIFAR10 generation benchmark, Uni-Instruct achieves record-breaking Frechet
Inception Distance (FID) values of \emph{1.46} for unconditional
generation and \emph{1.38} for conditional generation. On the
ImageNet-64times 64 generation benchmark, Uni-Instruct achieves a new SoTA
one-step generation FID of \emph{1.02}, which outperforms its 79-step
teacher diffusion with a significant improvement margin of 1.33 (1.02 vs 2.35).
We also apply Uni-Instruct on broader tasks like text-to-3D generation. For
text-to-3D generation, Uni-Instruct gives decent results, which slightly
outperforms previous methods, such as SDS and VSD, in terms of both generation
quality and diversity. Both the solid theoretical and empirical contributions
of Uni-Instruct will potentially help future studies on one-step diffusion
distillation and knowledge transferring of diffusion models.