Distillazione Condizionale della Diffusione
Conditional Diffusion Distillation
October 2, 2023
Autori: Kangfu Mei, Mauricio Delbracio, Hossein Talebi, Zhengzhong Tu, Vishal M. Patel, Peyman Milanfar
cs.AI
Abstract
I modelli generativi di diffusione forniscono forti prior per la generazione di immagini da testo, fungendo così da base per attività di generazione condizionata come l'editing, il restauro e la super-risoluzione di immagini. Tuttavia, una delle principali limitazioni dei modelli di diffusione è il loro tempo di campionamento lento. Per affrontare questa sfida, presentiamo un nuovo metodo di distillazione condizionata progettato per integrare i prior di diffusione con l'aiuto di condizioni immagine, consentendo un campionamento condizionato con pochissimi passaggi. Distilliamo direttamente il pre-addestramento non condizionato in un'unica fase attraverso un apprendimento congiunto, semplificando notevolmente le precedenti procedure in due fasi che prevedevano separatamente la distillazione e il fine-tuning condizionato. Inoltre, il nostro metodo abilita un nuovo meccanismo di distillazione efficiente in termini di parametri che distilla ciascun compito con solo un piccolo numero di parametri aggiuntivi combinati con il backbone non condizionato condiviso e congelato. Esperimenti su più compiti, tra cui super-risoluzione, editing di immagini e generazione di immagini da profondità, dimostrano che il nostro metodo supera le tecniche di distillazione esistenti per lo stesso tempo di campionamento. In particolare, il nostro metodo è la prima strategia di distillazione in grado di eguagliare le prestazioni dei modelli di diffusione condizionati con fine-tuning, molto più lenti.
English
Generative diffusion models provide strong priors for text-to-image
generation and thereby serve as a foundation for conditional generation tasks
such as image editing, restoration, and super-resolution. However, one major
limitation of diffusion models is their slow sampling time. To address this
challenge, we present a novel conditional distillation method designed to
supplement the diffusion priors with the help of image conditions, allowing for
conditional sampling with very few steps. We directly distill the unconditional
pre-training in a single stage through joint-learning, largely simplifying the
previous two-stage procedures that involve both distillation and conditional
finetuning separately. Furthermore, our method enables a new
parameter-efficient distillation mechanism that distills each task with only a
small number of additional parameters combined with the shared frozen
unconditional backbone. Experiments across multiple tasks including
super-resolution, image editing, and depth-to-image generation demonstrate that
our method outperforms existing distillation techniques for the same sampling
time. Notably, our method is the first distillation strategy that can match the
performance of the much slower fine-tuned conditional diffusion models.