Distilación de Difusión Condicional
Conditional Diffusion Distillation
October 2, 2023
Autores: Kangfu Mei, Mauricio Delbracio, Hossein Talebi, Zhengzhong Tu, Vishal M. Patel, Peyman Milanfar
cs.AI
Resumen
Los modelos generativos de difusión proporcionan fuertes priors para la generación de texto a imagen y, por lo tanto, sirven como base para tareas de generación condicional como la edición, restauración y superresolución de imágenes. Sin embargo, una limitación importante de los modelos de difusión es su lento tiempo de muestreo. Para abordar este desafío, presentamos un novedoso método de destilación condicional diseñado para complementar los priors de difusión con la ayuda de condiciones de imagen, permitiendo un muestreo condicional con muy pocos pasos. Destilamos directamente el preentrenamiento no condicional en una sola etapa mediante aprendizaje conjunto, simplificando en gran medida los procedimientos anteriores de dos etapas que involucraban tanto la destilación como el ajuste fino condicional por separado. Además, nuestro método permite un nuevo mecanismo de destilación eficiente en parámetros que destila cada tarea con solo un pequeño número de parámetros adicionales combinados con el backbone no condicional compartido y congelado. Los experimentos en múltiples tareas, incluyendo superresolución, edición de imágenes y generación de imagen a partir de profundidad, demuestran que nuestro método supera a las técnicas de destilación existentes para el mismo tiempo de muestreo. Notablemente, nuestro método es la primera estrategia de destilación que puede igualar el rendimiento de los modelos de difusión condicional ajustados finamente, que son mucho más lentos.
English
Generative diffusion models provide strong priors for text-to-image
generation and thereby serve as a foundation for conditional generation tasks
such as image editing, restoration, and super-resolution. However, one major
limitation of diffusion models is their slow sampling time. To address this
challenge, we present a novel conditional distillation method designed to
supplement the diffusion priors with the help of image conditions, allowing for
conditional sampling with very few steps. We directly distill the unconditional
pre-training in a single stage through joint-learning, largely simplifying the
previous two-stage procedures that involve both distillation and conditional
finetuning separately. Furthermore, our method enables a new
parameter-efficient distillation mechanism that distills each task with only a
small number of additional parameters combined with the shared frozen
unconditional backbone. Experiments across multiple tasks including
super-resolution, image editing, and depth-to-image generation demonstrate that
our method outperforms existing distillation techniques for the same sampling
time. Notably, our method is the first distillation strategy that can match the
performance of the much slower fine-tuned conditional diffusion models.