ChatPaper.aiChatPaper

BOOT: Бесдансеточное дистиллирование денойзинговых диффузионных моделей с использованием бутстрэппинга

BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping

June 8, 2023
Авторы: Jiatao Gu, Shuangfei Zhai, Yizhe Zhang, Lingjie Liu, Josh Susskind
cs.AI

Аннотация

Диффузионные модели продемонстрировали отличный потенциал для генерации разнообразных изображений. Однако их производительность часто страдает из-за медленной генерации, вызванной итеративным процессом удаления шума. В качестве решения недавно была предложена дистилляция знаний, которая позволяет сократить количество шагов вывода до одного или нескольких без значительного ухудшения качества. Однако существующие методы дистилляции либо требуют значительных вычислительных ресурсов для оффлайн-генерации синтетических обучающих данных с помощью модели-учителя, либо предполагают дорогостоящее онлайн-обучение с использованием реальных данных. В данной работе мы представляем новый метод под названием BOOT, который преодолевает эти ограничения с помощью эффективного алгоритма дистилляции без использования данных. Основная идея заключается в обучении модели, зависящей от времени, которая предсказывает выход предварительно обученной диффузионной модели-учителя для любого временного шага. Такая модель может быть эффективно обучена на основе бутстрэппинга из двух последовательно сэмплированных шагов. Более того, наш метод легко адаптируется к крупномасштабным диффузионным моделям для генерации изображений по тексту, что является сложной задачей для традиционных методов, учитывая, что обучающие наборы данных часто велики и труднодоступны. Мы демонстрируем эффективность нашего подхода на нескольких эталонных наборах данных в условиях DDIM, достигая сопоставимого качества генерации при значительно более высокой скорости по сравнению с диффузионной моделью-учителем. Результаты генерации изображений по тексту показывают, что предложенный метод способен работать с высоко сложными распределениями, открывая новые возможности для более эффективного генеративного моделирования.
English
Diffusion models have demonstrated excellent potential for generating diverse images. However, their performance often suffers from slow generation due to iterative denoising. Knowledge distillation has been recently proposed as a remedy that can reduce the number of inference steps to one or a few without significant quality degradation. However, existing distillation methods either require significant amounts of offline computation for generating synthetic training data from the teacher model or need to perform expensive online learning with the help of real data. In this work, we present a novel technique called BOOT, that overcomes these limitations with an efficient data-free distillation algorithm. The core idea is to learn a time-conditioned model that predicts the output of a pre-trained diffusion model teacher given any time step. Such a model can be efficiently trained based on bootstrapping from two consecutive sampled steps. Furthermore, our method can be easily adapted to large-scale text-to-image diffusion models, which are challenging for conventional methods given the fact that the training sets are often large and difficult to access. We demonstrate the effectiveness of our approach on several benchmark datasets in the DDIM setting, achieving comparable generation quality while being orders of magnitude faster than the diffusion teacher. The text-to-image results show that the proposed approach is able to handle highly complex distributions, shedding light on more efficient generative modeling.
PDF101December 15, 2024