Uni-Instruct: Modelo de Difusión en un Paso mediante Instrucción Unificada de Divergencia de Difusión
Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction
May 27, 2025
Autores: Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun
cs.AI
Resumen
En este artículo, unificamos más de 10 enfoques existentes de destilación de difusión en un solo paso, como Diff-Instruct, DMD, SIM, SiD, f-distill, etc., dentro de un marco teórico que denominamos \emph{Uni-Instruct}. Uni-Instruct está motivado por nuestra teoría propuesta de expansión de difusión de la familia de divergencias f. Luego, presentamos teorías clave que superan el problema de intratabilidad de la divergencia f expandida original, resultando en una pérdida equivalente pero tratable que entrena eficazmente modelos de difusión en un solo paso al minimizar la familia de divergencias f expandida. La novedosa unificación introducida por Uni-Instruct no solo ofrece nuevas contribuciones teóricas que ayudan a comprender los enfoques existentes desde una perspectiva de alto nivel, sino que también conduce a rendimientos de generación de difusión en un solo paso de vanguardia. En el benchmark de generación CIFAR10, Uni-Instruct logra valores récord de Distancia de Incepción de Fréchet (FID) de \emph{1.46} para generación incondicional y \emph{1.38} para generación condicional. En el benchmark de generación ImageNet-64x64, Uni-Instruct alcanza un nuevo FID de generación en un solo paso de \emph{1.02}, superando a su modelo de difusión maestro de 79 pasos con un margen de mejora significativo de 1.33 (1.02 vs 2.35). También aplicamos Uni-Instruct en tareas más amplias, como la generación de texto a 3D. Para la generación de texto a 3D, Uni-Instruct ofrece resultados decentes, superando ligeramente métodos anteriores, como SDS y VSD, tanto en calidad como en diversidad de generación. Tanto las sólidas contribuciones teóricas como empíricas de Uni-Instruct podrían ayudar potencialmente a futuros estudios sobre destilación de difusión en un solo paso y transferencia de conocimiento en modelos de difusión.
English
In this paper, we unify more than 10 existing one-step diffusion distillation
approaches, such as Diff-Instruct, DMD, SIM, SiD, f-distill, etc, inside a
theory-driven framework which we name the \emph{Uni-Instruct}.
Uni-Instruct is motivated by our proposed diffusion expansion theory of the
f-divergence family. Then we introduce key theories that overcome the
intractability issue of the original expanded f-divergence, resulting in an
equivalent yet tractable loss that effectively trains one-step diffusion models
by minimizing the expanded f-divergence family. The novel unification
introduced by Uni-Instruct not only offers new theoretical contributions that
help understand existing approaches from a high-level perspective but also
leads to state-of-the-art one-step diffusion generation performances. On the
CIFAR10 generation benchmark, Uni-Instruct achieves record-breaking Frechet
Inception Distance (FID) values of \emph{1.46} for unconditional
generation and \emph{1.38} for conditional generation. On the
ImageNet-64times 64 generation benchmark, Uni-Instruct achieves a new SoTA
one-step generation FID of \emph{1.02}, which outperforms its 79-step
teacher diffusion with a significant improvement margin of 1.33 (1.02 vs 2.35).
We also apply Uni-Instruct on broader tasks like text-to-3D generation. For
text-to-3D generation, Uni-Instruct gives decent results, which slightly
outperforms previous methods, such as SDS and VSD, in terms of both generation
quality and diversity. Both the solid theoretical and empirical contributions
of Uni-Instruct will potentially help future studies on one-step diffusion
distillation and knowledge transferring of diffusion models.