BOOT : Distillation sans données des modèles de diffusion débruiteurs par amorçage
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping
June 8, 2023
Auteurs: Jiatao Gu, Shuangfei Zhai, Yizhe Zhang, Lingjie Liu, Josh Susskind
cs.AI
Résumé
Les modèles de diffusion ont démontré un excellent potentiel pour générer des images diversifiées. Cependant, leurs performances souffrent souvent d'une génération lente en raison du processus itératif de débruitage. La distillation de connaissances a récemment été proposée comme une solution permettant de réduire le nombre d'étapes d'inférence à une ou quelques-unes sans dégradation significative de la qualité. Cependant, les méthodes de distillation existantes nécessitent soit des calculs hors ligne importants pour générer des données d'entraînement synthétiques à partir du modèle enseignant, soit un apprentissage en ligne coûteux avec l'aide de données réelles. Dans ce travail, nous présentons une technique novatrice appelée BOOT, qui surmonte ces limitations grâce à un algorithme de distillation efficace sans données. L'idée centrale est d'apprendre un modèle conditionné par le temps qui prédit la sortie d'un modèle de diffusion pré-entraîné (le modèle enseignant) pour n'importe quel pas de temps. Un tel modèle peut être entraîné efficacement en s'appuyant sur un bootstrap à partir de deux pas d'échantillonnage consécutifs. De plus, notre méthode peut être facilement adaptée aux modèles de diffusion texte-à-image à grande échelle, qui posent des défis aux méthodes conventionnelles étant donné que les ensembles d'entraînement sont souvent volumineux et difficiles d'accès. Nous démontrons l'efficacité de notre approche sur plusieurs ensembles de données de référence dans le cadre DDIM, atteignant une qualité de génération comparable tout en étant des ordres de grandeur plus rapide que le modèle de diffusion enseignant. Les résultats texte-à-image montrent que l'approche proposée est capable de gérer des distributions hautement complexes, ouvrant la voie à une modélisation générative plus efficace.
English
Diffusion models have demonstrated excellent potential for generating diverse
images. However, their performance often suffers from slow generation due to
iterative denoising. Knowledge distillation has been recently proposed as a
remedy that can reduce the number of inference steps to one or a few without
significant quality degradation. However, existing distillation methods either
require significant amounts of offline computation for generating synthetic
training data from the teacher model or need to perform expensive online
learning with the help of real data. In this work, we present a novel technique
called BOOT, that overcomes these limitations with an efficient data-free
distillation algorithm. The core idea is to learn a time-conditioned model that
predicts the output of a pre-trained diffusion model teacher given any time
step. Such a model can be efficiently trained based on bootstrapping from two
consecutive sampled steps. Furthermore, our method can be easily adapted to
large-scale text-to-image diffusion models, which are challenging for
conventional methods given the fact that the training sets are often large and
difficult to access. We demonstrate the effectiveness of our approach on
several benchmark datasets in the DDIM setting, achieving comparable generation
quality while being orders of magnitude faster than the diffusion teacher. The
text-to-image results show that the proposed approach is able to handle highly
complex distributions, shedding light on more efficient generative modeling.