Uni-Instruct: Одношаговая диффузионная модель через унифицированную инструкцию расхождения диффузии

Аннотация

В данной работе мы объединяем более 10 существующих подходов к одношаговой диффузионной дистилляции, таких как Diff-Instruct, DMD, SIM, SiD, f-distill и другие, в рамках теоретически обоснованной структуры, которую мы называем \emph{Uni-Instruct}. Uni-Instruct мотивирован предложенной нами теорией расширения диффузии для семейства f-дивергенций. Затем мы представляем ключевые теории, которые преодолевают проблему вычислительной сложности исходной расширенной f-дивергенции, что приводит к эквивалентной, но вычислительно эффективной функции потерь, которая успешно обучает одношаговые диффузионные модели за счет минимизации расширенного семейства f-дивергенций. Новое объединение, предложенное Uni-Instruct, не только вносит теоретический вклад, помогающий понять существующие подходы с более высокой точки зрения, но также приводит к передовым результатам в одношаговой диффузионной генерации. На эталонном тесте генерации CIFAR10 Uni-Instruct достигает рекордных значений Frechet Inception Distance (FID) \emph{1.46} для безусловной генерации и \emph{1.38} для условной генерации. На эталонном тесте генерации ImageNet-64×64 Uni-Instruct устанавливает новый рекорд одношаговой генерации с FID \emph{1.02}, что превосходит его 79-шаговую учительскую диффузию с значительным улучшением на 1.33 (1.02 против 2.35). Мы также применяем Uni-Instruct к более широким задачам, таким как генерация текста в 3D. Для генерации текста в 3D Uni-Instruct демонстрирует достойные результаты, слегка превосходя предыдущие методы, такие как SDS и VSD, как по качеству генерации, так и по разнообразию. Как теоретические, так и эмпирические достижения Uni-Instruct могут способствовать будущим исследованиям в области одношаговой диффузионной дистилляции и передачи знаний в диффузионных моделях.

English

In this paper, we unify more than 10 existing one-step diffusion distillation approaches, such as Diff-Instruct, DMD, SIM, SiD, f-distill, etc, inside a theory-driven framework which we name the \emph{Uni-Instruct}. Uni-Instruct is motivated by our proposed diffusion expansion theory of the f-divergence family. Then we introduce key theories that overcome the intractability issue of the original expanded f-divergence, resulting in an equivalent yet tractable loss that effectively trains one-step diffusion models by minimizing the expanded f-divergence family. The novel unification introduced by Uni-Instruct not only offers new theoretical contributions that help understand existing approaches from a high-level perspective but also leads to state-of-the-art one-step diffusion generation performances. On the CIFAR10 generation benchmark, Uni-Instruct achieves record-breaking Frechet Inception Distance (FID) values of \emph{1.46} for unconditional generation and \emph{1.38} for conditional generation. On the ImageNet-64times 64 generation benchmark, Uni-Instruct achieves a new SoTA one-step generation FID of \emph{1.02}, which outperforms its 79-step teacher diffusion with a significant improvement margin of 1.33 (1.02 vs 2.35). We also apply Uni-Instruct on broader tasks like text-to-3D generation. For text-to-3D generation, Uni-Instruct gives decent results, which slightly outperforms previous methods, such as SDS and VSD, in terms of both generation quality and diversity. Both the solid theoretical and empirical contributions of Uni-Instruct will potentially help future studies on one-step diffusion distillation and knowledge transferring of diffusion models.

Uni-Instruct: Одношаговая диффузионная модель через унифицированную инструкцию расхождения диффузии

Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction

Аннотация

Support