Дистилляция условной диффузии
Conditional Diffusion Distillation
October 2, 2023
Авторы: Kangfu Mei, Mauricio Delbracio, Hossein Talebi, Zhengzhong Tu, Vishal M. Patel, Peyman Milanfar
cs.AI
Аннотация
Генеративные диффузионные модели предоставляют мощные априорные знания для задач генерации изображений по текстовым описаниям и, таким образом, служат основой для условных задач генерации, таких как редактирование, восстановление и супер-разрешение изображений. Однако одним из основных ограничений диффузионных моделей является их медленное время выборки. Для решения этой проблемы мы представляем новый метод условной дистилляции, предназначенный для дополнения априорных знаний диффузионных моделей с помощью условий на изображения, что позволяет выполнять условную выборку за очень малое количество шагов. Мы напрямую дистиллируем безусловное предварительное обучение в один этап через совместное обучение, значительно упрощая предыдущие двухэтапные процедуры, которые включали отдельно дистилляцию и условную донастройку. Более того, наш метод позволяет реализовать новый параметрически эффективный механизм дистилляции, который дистиллирует каждую задачу с использованием лишь небольшого числа дополнительных параметров в сочетании с общей замороженной безусловной базовой моделью. Эксперименты на множестве задач, включая супер-разрешение, редактирование изображений и генерацию изображений по глубине, демонстрируют, что наш метод превосходит существующие техники дистилляции при одинаковом времени выборки. Примечательно, что наш метод является первой стратегией дистилляции, которая может соответствовать производительности значительно более медленных донастроенных условных диффузионных моделей.
English
Generative diffusion models provide strong priors for text-to-image
generation and thereby serve as a foundation for conditional generation tasks
such as image editing, restoration, and super-resolution. However, one major
limitation of diffusion models is their slow sampling time. To address this
challenge, we present a novel conditional distillation method designed to
supplement the diffusion priors with the help of image conditions, allowing for
conditional sampling with very few steps. We directly distill the unconditional
pre-training in a single stage through joint-learning, largely simplifying the
previous two-stage procedures that involve both distillation and conditional
finetuning separately. Furthermore, our method enables a new
parameter-efficient distillation mechanism that distills each task with only a
small number of additional parameters combined with the shared frozen
unconditional backbone. Experiments across multiple tasks including
super-resolution, image editing, and depth-to-image generation demonstrate that
our method outperforms existing distillation techniques for the same sampling
time. Notably, our method is the first distillation strategy that can match the
performance of the much slower fine-tuned conditional diffusion models.