BOOT: Data-vrije distillatie van denoising-diffusiemodellen met bootstrapping
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping
June 8, 2023
Auteurs: Jiatao Gu, Shuangfei Zhai, Yizhe Zhang, Lingjie Liu, Josh Susskind
cs.AI
Samenvatting
Diffusiemodellen hebben uitstekend potentieel getoond voor het genereren van diverse afbeeldingen. Hun prestaties lijden echter vaak onder trage generatie vanwege iteratieve ruisvermindering. Kennisdistillatie is recent voorgesteld als een oplossing die het aantal inferentiestappen kan terugbrengen tot één of enkele zonder significante kwaliteitsvermindering. Bestaande distillatiemethoden vereisen echter ofwel aanzienlijke offline berekeningen voor het genereren van synthetische trainingsdata vanuit het leraarmodel, of moeten dure online learning uitvoeren met behulp van echte data. In dit werk presenteren we een nieuwe techniek genaamd BOOT, die deze beperkingen overwint met een efficiënt data-vrij distillatiealgoritme. De kernidee is om een tijd-geconditioneerd model te leren dat de output van een vooraf getraind diffusiemodel-leraar voorspelt voor elke tijdstap. Zo'n model kan efficiënt worden getraind op basis van bootstrapping vanuit twee opeenvolgende bemonsterde stappen. Bovendien kan onze methode eenvoudig worden aangepast aan grootschalige tekst-naar-afbeelding diffusiemodellen, wat een uitdaging is voor conventionele methoden gezien het feit dat de trainingssets vaak groot en moeilijk toegankelijk zijn. We demonstreren de effectiviteit van onze aanpak op verschillende benchmarkdatasets in de DDIM-instelling, waarbij vergelijkbare generatiekwaliteit wordt bereikt terwijl het orders van grootte sneller is dan het diffusieleraarmodel. De tekst-naar-afbeelding resultaten laten zien dat de voorgestelde aanpak in staat is om zeer complexe verdelingen te hanteren, wat licht werpt op efficiëntere generatieve modellering.
English
Diffusion models have demonstrated excellent potential for generating diverse
images. However, their performance often suffers from slow generation due to
iterative denoising. Knowledge distillation has been recently proposed as a
remedy that can reduce the number of inference steps to one or a few without
significant quality degradation. However, existing distillation methods either
require significant amounts of offline computation for generating synthetic
training data from the teacher model or need to perform expensive online
learning with the help of real data. In this work, we present a novel technique
called BOOT, that overcomes these limitations with an efficient data-free
distillation algorithm. The core idea is to learn a time-conditioned model that
predicts the output of a pre-trained diffusion model teacher given any time
step. Such a model can be efficiently trained based on bootstrapping from two
consecutive sampled steps. Furthermore, our method can be easily adapted to
large-scale text-to-image diffusion models, which are challenging for
conventional methods given the fact that the training sets are often large and
difficult to access. We demonstrate the effectiveness of our approach on
several benchmark datasets in the DDIM setting, achieving comparable generation
quality while being orders of magnitude faster than the diffusion teacher. The
text-to-image results show that the proposed approach is able to handle highly
complex distributions, shedding light on more efficient generative modeling.