Destilação de Difusão Condicional
Conditional Diffusion Distillation
October 2, 2023
Autores: Kangfu Mei, Mauricio Delbracio, Hossein Talebi, Zhengzhong Tu, Vishal M. Patel, Peyman Milanfar
cs.AI
Resumo
Modelos generativos de difusão fornecem fortes priors para geração de texto-para-imagem e, assim, servem como base para tarefas de geração condicional, como edição de imagem, restauração e super-resolução. No entanto, uma grande limitação dos modelos de difusão é o seu tempo de amostragem lento. Para enfrentar esse desafio, apresentamos um novo método de destilação condicional projetado para complementar os priors de difusão com a ajuda de condições de imagem, permitindo amostragem condicional com muito poucos passos. Destilamos diretamente o pré-treinamento incondicional em um único estágio por meio de aprendizado conjunto, simplificando substancialmente os procedimentos anteriores em dois estágios que envolviam destilação e ajuste fino condicional separadamente. Além disso, nosso método permite um novo mecanismo de destilação eficiente em parâmetros que destila cada tarefa com apenas um pequeno número de parâmetros adicionais combinados com a estrutura incondicional compartilhada e congelada. Experimentos em várias tarefas, incluindo super-resolução, edição de imagem e geração de imagem a partir de profundidade, demonstram que nosso método supera as técnicas de destilação existentes para o mesmo tempo de amostragem. Notavelmente, nosso método é a primeira estratégia de destilação que pode igualar o desempenho dos modelos de difusão condicional ajustados finamente, que são muito mais lentos.
English
Generative diffusion models provide strong priors for text-to-image
generation and thereby serve as a foundation for conditional generation tasks
such as image editing, restoration, and super-resolution. However, one major
limitation of diffusion models is their slow sampling time. To address this
challenge, we present a novel conditional distillation method designed to
supplement the diffusion priors with the help of image conditions, allowing for
conditional sampling with very few steps. We directly distill the unconditional
pre-training in a single stage through joint-learning, largely simplifying the
previous two-stage procedures that involve both distillation and conditional
finetuning separately. Furthermore, our method enables a new
parameter-efficient distillation mechanism that distills each task with only a
small number of additional parameters combined with the shared frozen
unconditional backbone. Experiments across multiple tasks including
super-resolution, image editing, and depth-to-image generation demonstrate that
our method outperforms existing distillation techniques for the same sampling
time. Notably, our method is the first distillation strategy that can match the
performance of the much slower fine-tuned conditional diffusion models.