BOOT: Distillazione senza dati di modelli di diffusione denoising con bootstrapping
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping
June 8, 2023
Autori: Jiatao Gu, Shuangfei Zhai, Yizhe Zhang, Lingjie Liu, Josh Susskind
cs.AI
Abstract
I modelli di diffusione hanno dimostrato un eccellente potenziale nella generazione di immagini diversificate. Tuttavia, le loro prestazioni spesso risentono di una generazione lenta a causa del processo iterativo di rimozione del rumore. La distillazione della conoscenza è stata recentemente proposta come rimedio in grado di ridurre il numero di passaggi di inferenza a uno o pochi senza un significativo degrado della qualità. Tuttavia, i metodi di distillazione esistenti richiedono o una quantità significativa di calcolo offline per generare dati di addestramento sintetici dal modello insegnante, o necessitano di un costoso apprendimento online con l'aiuto di dati reali. In questo lavoro, presentiamo una tecnica innovativa chiamata BOOT, che supera queste limitazioni con un algoritmo di distillazione efficiente e privo di dati. L'idea centrale è apprendere un modello condizionato temporalmente che predice l'output di un modello di diffusione insegnante pre-addestrato dato qualsiasi passo temporale. Tale modello può essere addestrato in modo efficiente basandosi sul bootstrapping da due passi campionati consecutivi. Inoltre, il nostro metodo può essere facilmente adattato a modelli di diffusione su larga scala per la generazione di immagini da testo, che rappresentano una sfida per i metodi convenzionali dato che i set di addestramento sono spesso di grandi dimensioni e difficili da accedere. Dimostriamo l'efficacia del nostro approccio su diversi dataset di benchmark nell'ambito del DDIM, raggiungendo una qualità di generazione comparabile mentre siamo ordini di grandezza più veloci rispetto al modello di diffusione insegnante. I risultati nella generazione di immagini da testo mostrano che l'approccio proposto è in grado di gestire distribuzioni altamente complesse, aprendo la strada a una modellazione generativa più efficiente.
English
Diffusion models have demonstrated excellent potential for generating diverse
images. However, their performance often suffers from slow generation due to
iterative denoising. Knowledge distillation has been recently proposed as a
remedy that can reduce the number of inference steps to one or a few without
significant quality degradation. However, existing distillation methods either
require significant amounts of offline computation for generating synthetic
training data from the teacher model or need to perform expensive online
learning with the help of real data. In this work, we present a novel technique
called BOOT, that overcomes these limitations with an efficient data-free
distillation algorithm. The core idea is to learn a time-conditioned model that
predicts the output of a pre-trained diffusion model teacher given any time
step. Such a model can be efficiently trained based on bootstrapping from two
consecutive sampled steps. Furthermore, our method can be easily adapted to
large-scale text-to-image diffusion models, which are challenging for
conventional methods given the fact that the training sets are often large and
difficult to access. We demonstrate the effectiveness of our approach on
several benchmark datasets in the DDIM setting, achieving comparable generation
quality while being orders of magnitude faster than the diffusion teacher. The
text-to-image results show that the proposed approach is able to handle highly
complex distributions, shedding light on more efficient generative modeling.