BOOT: Datenfreie Destillation von Denoising-Diffusionsmodellen mit Bootstrapping
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping
June 8, 2023
Autoren: Jiatao Gu, Shuangfei Zhai, Yizhe Zhang, Lingjie Liu, Josh Susskind
cs.AI
Zusammenfassung
Diffusionsmodelle haben ein hervorragendes Potenzial für die Erzeugung vielfältiger Bilder gezeigt. Ihre Leistung leidet jedoch oft unter einer langsamen Generierung aufgrund von iterativer Rauschunterdrückung. Kürzlich wurde Wissensdistillation als Abhilfe vorgeschlagen, die die Anzahl der Inferenzschritte auf einen oder wenige reduzieren kann, ohne dass es zu einer signifikanten Qualitätseinbuße kommt. Bisherige Distillationsmethoden erfordern jedoch entweder erhebliche Offline-Berechnungen zur Erzeugung synthetischer Trainingsdaten aus dem Lehrer-Modell oder müssen teures Online-Lernen mit Hilfe von realen Daten durchführen. In dieser Arbeit stellen wir eine neuartige Technik namens BOOT vor, die diese Einschränkungen mit einem effizienten datenfreien Distillationsalgorithmus überwindet. Die Kernidee besteht darin, ein zeitabhängiges Modell zu lernen, das die Ausgabe eines vortrainierten Diffusionsmodell-Lehrers für jeden beliebigen Zeitschritt vorhersagt. Ein solches Modell kann effizient auf der Grundlage von Bootstrapping aus zwei aufeinanderfolgenden abgetasteten Schritten trainiert werden. Darüber hinaus kann unsere Methode leicht auf groß angelegte Text-zu-Bild-Diffusionsmodelle angepasst werden, die für konventionelle Methoden aufgrund der oft großen und schwer zugänglichen Trainingsdatensätze eine Herausforderung darstellen. Wir demonstrieren die Wirksamkeit unseres Ansatzes an mehreren Benchmark-Datensätzen im DDIM-Setting, wobei wir eine vergleichbare Generierungsqualität erreichen und gleichzeitig um Größenordnungen schneller als das Diffusions-Lehrer-Modell sind. Die Text-zu-Bild-Ergebnisse zeigen, dass der vorgeschlagene Ansatz in der Lage ist, hochkomplexe Verteilungen zu bewältigen, und damit den Weg für effizientere generative Modellierung ebnet.
English
Diffusion models have demonstrated excellent potential for generating diverse
images. However, their performance often suffers from slow generation due to
iterative denoising. Knowledge distillation has been recently proposed as a
remedy that can reduce the number of inference steps to one or a few without
significant quality degradation. However, existing distillation methods either
require significant amounts of offline computation for generating synthetic
training data from the teacher model or need to perform expensive online
learning with the help of real data. In this work, we present a novel technique
called BOOT, that overcomes these limitations with an efficient data-free
distillation algorithm. The core idea is to learn a time-conditioned model that
predicts the output of a pre-trained diffusion model teacher given any time
step. Such a model can be efficiently trained based on bootstrapping from two
consecutive sampled steps. Furthermore, our method can be easily adapted to
large-scale text-to-image diffusion models, which are challenging for
conventional methods given the fact that the training sets are often large and
difficult to access. We demonstrate the effectiveness of our approach on
several benchmark datasets in the DDIM setting, achieving comparable generation
quality while being orders of magnitude faster than the diffusion teacher. The
text-to-image results show that the proposed approach is able to handle highly
complex distributions, shedding light on more efficient generative modeling.