Uni-Instruct: Одношаговая диффузионная модель через унифицированную инструкцию расхождения диффузии
Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction
May 27, 2025
Авторы: Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun
cs.AI
Аннотация
В данной работе мы объединяем более 10 существующих подходов к одношаговой диффузионной дистилляции, таких как Diff-Instruct, DMD, SIM, SiD, f-distill и другие, в рамках теоретически обоснованной структуры, которую мы называем \emph{Uni-Instruct}. Uni-Instruct мотивирован предложенной нами теорией расширения диффузии для семейства f-дивергенций. Затем мы представляем ключевые теории, которые преодолевают проблему вычислительной сложности исходной расширенной f-дивергенции, что приводит к эквивалентной, но вычислительно эффективной функции потерь, которая успешно обучает одношаговые диффузионные модели за счет минимизации расширенного семейства f-дивергенций. Новое объединение, предложенное Uni-Instruct, не только вносит теоретический вклад, помогающий понять существующие подходы с более высокой точки зрения, но также приводит к передовым результатам в одношаговой диффузионной генерации. На эталонном тесте генерации CIFAR10 Uni-Instruct достигает рекордных значений Frechet Inception Distance (FID) \emph{1.46} для безусловной генерации и \emph{1.38} для условной генерации. На эталонном тесте генерации ImageNet-64×64 Uni-Instruct устанавливает новый рекорд одношаговой генерации с FID \emph{1.02}, что превосходит его 79-шаговую учительскую диффузию с значительным улучшением на 1.33 (1.02 против 2.35). Мы также применяем Uni-Instruct к более широким задачам, таким как генерация текста в 3D. Для генерации текста в 3D Uni-Instruct демонстрирует достойные результаты, слегка превосходя предыдущие методы, такие как SDS и VSD, как по качеству генерации, так и по разнообразию. Как теоретические, так и эмпирические достижения Uni-Instruct могут способствовать будущим исследованиям в области одношаговой диффузионной дистилляции и передачи знаний в диффузионных моделях.
English
In this paper, we unify more than 10 existing one-step diffusion distillation
approaches, such as Diff-Instruct, DMD, SIM, SiD, f-distill, etc, inside a
theory-driven framework which we name the \emph{Uni-Instruct}.
Uni-Instruct is motivated by our proposed diffusion expansion theory of the
f-divergence family. Then we introduce key theories that overcome the
intractability issue of the original expanded f-divergence, resulting in an
equivalent yet tractable loss that effectively trains one-step diffusion models
by minimizing the expanded f-divergence family. The novel unification
introduced by Uni-Instruct not only offers new theoretical contributions that
help understand existing approaches from a high-level perspective but also
leads to state-of-the-art one-step diffusion generation performances. On the
CIFAR10 generation benchmark, Uni-Instruct achieves record-breaking Frechet
Inception Distance (FID) values of \emph{1.46} for unconditional
generation and \emph{1.38} for conditional generation. On the
ImageNet-64times 64 generation benchmark, Uni-Instruct achieves a new SoTA
one-step generation FID of \emph{1.02}, which outperforms its 79-step
teacher diffusion with a significant improvement margin of 1.33 (1.02 vs 2.35).
We also apply Uni-Instruct on broader tasks like text-to-3D generation. For
text-to-3D generation, Uni-Instruct gives decent results, which slightly
outperforms previous methods, such as SDS and VSD, in terms of both generation
quality and diversity. Both the solid theoretical and empirical contributions
of Uni-Instruct will potentially help future studies on one-step diffusion
distillation and knowledge transferring of diffusion models.Summary
AI-Generated Summary