Distilación de Difusión Condicional

Resumen

Los modelos generativos de difusión proporcionan fuertes priors para la generación de texto a imagen y, por lo tanto, sirven como base para tareas de generación condicional como la edición, restauración y superresolución de imágenes. Sin embargo, una limitación importante de los modelos de difusión es su lento tiempo de muestreo. Para abordar este desafío, presentamos un novedoso método de destilación condicional diseñado para complementar los priors de difusión con la ayuda de condiciones de imagen, permitiendo un muestreo condicional con muy pocos pasos. Destilamos directamente el preentrenamiento no condicional en una sola etapa mediante aprendizaje conjunto, simplificando en gran medida los procedimientos anteriores de dos etapas que involucraban tanto la destilación como el ajuste fino condicional por separado. Además, nuestro método permite un nuevo mecanismo de destilación eficiente en parámetros que destila cada tarea con solo un pequeño número de parámetros adicionales combinados con el backbone no condicional compartido y congelado. Los experimentos en múltiples tareas, incluyendo superresolución, edición de imágenes y generación de imagen a partir de profundidad, demuestran que nuestro método supera a las técnicas de destilación existentes para el mismo tiempo de muestreo. Notablemente, nuestro método es la primera estrategia de destilación que puede igualar el rendimiento de los modelos de difusión condicional ajustados finamente, que son mucho más lentos.

English

Generative diffusion models provide strong priors for text-to-image generation and thereby serve as a foundation for conditional generation tasks such as image editing, restoration, and super-resolution. However, one major limitation of diffusion models is their slow sampling time. To address this challenge, we present a novel conditional distillation method designed to supplement the diffusion priors with the help of image conditions, allowing for conditional sampling with very few steps. We directly distill the unconditional pre-training in a single stage through joint-learning, largely simplifying the previous two-stage procedures that involve both distillation and conditional finetuning separately. Furthermore, our method enables a new parameter-efficient distillation mechanism that distills each task with only a small number of additional parameters combined with the shared frozen unconditional backbone. Experiments across multiple tasks including super-resolution, image editing, and depth-to-image generation demonstrate that our method outperforms existing distillation techniques for the same sampling time. Notably, our method is the first distillation strategy that can match the performance of the much slower fine-tuned conditional diffusion models.

Distilación de Difusión Condicional

Conditional Diffusion Distillation

Resumen

Support