ChatPaper.aiChatPaper

BOOT: Distilación sin datos de modelos de difusión de eliminación de ruido con arranque inicial

BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping

June 8, 2023
Autores: Jiatao Gu, Shuangfei Zhai, Yizhe Zhang, Lingjie Liu, Josh Susskind
cs.AI

Resumen

Los modelos de difusión han demostrado un excelente potencial para generar imágenes diversas. Sin embargo, su rendimiento a menudo se ve afectado por una generación lenta debido al proceso iterativo de eliminación de ruido. Recientemente, se ha propuesto la destilación de conocimiento como una solución que puede reducir el número de pasos de inferencia a uno o unos pocos sin una degradación significativa de la calidad. No obstante, los métodos de destilación existentes requieren una cantidad considerable de cómputo fuera de línea para generar datos de entrenamiento sintéticos a partir del modelo maestro o necesitan realizar un aprendizaje en línea costoso con la ayuda de datos reales. En este trabajo, presentamos una técnica novedosa llamada BOOT, que supera estas limitaciones con un algoritmo de destilación eficiente y sin necesidad de datos. La idea central es aprender un modelo condicionado por el tiempo que predice la salida de un modelo de difusión preentrenado (maestro) dado cualquier paso de tiempo. Dicho modelo puede entrenarse de manera eficiente basándose en un proceso de bootstrapping a partir de dos pasos muestreados consecutivos. Además, nuestro método puede adaptarse fácilmente a modelos de difusión a gran escala de texto a imagen, que representan un desafío para los métodos convencionales dado que los conjuntos de entrenamiento suelen ser grandes y difíciles de acceder. Demostramos la efectividad de nuestro enfoque en varios conjuntos de datos de referencia en el entorno DDIM, logrando una calidad de generación comparable mientras es órdenes de magnitud más rápido que el modelo de difusión maestro. Los resultados de texto a imagen muestran que el enfoque propuesto es capaz de manejar distribuciones altamente complejas, arrojando luz sobre un modelado generativo más eficiente.
English
Diffusion models have demonstrated excellent potential for generating diverse images. However, their performance often suffers from slow generation due to iterative denoising. Knowledge distillation has been recently proposed as a remedy that can reduce the number of inference steps to one or a few without significant quality degradation. However, existing distillation methods either require significant amounts of offline computation for generating synthetic training data from the teacher model or need to perform expensive online learning with the help of real data. In this work, we present a novel technique called BOOT, that overcomes these limitations with an efficient data-free distillation algorithm. The core idea is to learn a time-conditioned model that predicts the output of a pre-trained diffusion model teacher given any time step. Such a model can be efficiently trained based on bootstrapping from two consecutive sampled steps. Furthermore, our method can be easily adapted to large-scale text-to-image diffusion models, which are challenging for conventional methods given the fact that the training sets are often large and difficult to access. We demonstrate the effectiveness of our approach on several benchmark datasets in the DDIM setting, achieving comparable generation quality while being orders of magnitude faster than the diffusion teacher. The text-to-image results show that the proposed approach is able to handle highly complex distributions, shedding light on more efficient generative modeling.
PDF101December 15, 2024