BOOT: Destilação Livre de Dados de Modelos de Difusão de Ruído com Bootstrapping
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping
June 8, 2023
Autores: Jiatao Gu, Shuangfei Zhai, Yizhe Zhang, Lingjie Liu, Josh Susskind
cs.AI
Resumo
Modelos de difusão têm demonstrado excelente potencial para gerar imagens diversas. No entanto, seu desempenho frequentemente sofre com a geração lenta devido ao processo iterativo de remoção de ruído. A destilação de conhecimento foi recentemente proposta como uma solução que pode reduzir o número de etapas de inferência para uma ou poucas, sem degradação significativa da qualidade. Contudo, os métodos de destilação existentes ou exigem uma quantidade significativa de computação offline para gerar dados de treinamento sintéticos a partir do modelo professor ou precisam realizar um aprendizado online caro com o auxílio de dados reais. Neste trabalho, apresentamos uma técnica inovadora chamada BOOT, que supera essas limitações com um algoritmo eficiente de destilação sem dados. A ideia central é aprender um modelo condicionado no tempo que prevê a saída de um modelo de difusão pré-treinado (professor) dado qualquer passo de tempo. Esse modelo pode ser treinado de forma eficiente com base em bootstrapping a partir de dois passos amostrados consecutivos. Além disso, nosso método pode ser facilmente adaptado a modelos de difusão de texto para imagem em larga escala, que são desafiadores para métodos convencionais, considerando que os conjuntos de treinamento são frequentemente grandes e de difícil acesso. Demonstramos a eficácia de nossa abordagem em vários conjuntos de dados de referência no cenário DDIM, alcançando qualidade de geração comparável enquanto sendo ordens de magnitude mais rápido que o modelo de difusão professor. Os resultados de texto para imagem mostram que a abordagem proposta é capaz de lidar com distribuições altamente complexas, lançando luz sobre uma modelagem generativa mais eficiente.
English
Diffusion models have demonstrated excellent potential for generating diverse
images. However, their performance often suffers from slow generation due to
iterative denoising. Knowledge distillation has been recently proposed as a
remedy that can reduce the number of inference steps to one or a few without
significant quality degradation. However, existing distillation methods either
require significant amounts of offline computation for generating synthetic
training data from the teacher model or need to perform expensive online
learning with the help of real data. In this work, we present a novel technique
called BOOT, that overcomes these limitations with an efficient data-free
distillation algorithm. The core idea is to learn a time-conditioned model that
predicts the output of a pre-trained diffusion model teacher given any time
step. Such a model can be efficiently trained based on bootstrapping from two
consecutive sampled steps. Furthermore, our method can be easily adapted to
large-scale text-to-image diffusion models, which are challenging for
conventional methods given the fact that the training sets are often large and
difficult to access. We demonstrate the effectiveness of our approach on
several benchmark datasets in the DDIM setting, achieving comparable generation
quality while being orders of magnitude faster than the diffusion teacher. The
text-to-image results show that the proposed approach is able to handle highly
complex distributions, shedding light on more efficient generative modeling.