Distilação EM para Modelos de Difusão em Um Passo
EM Distillation for One-step Diffusion Models
May 27, 2024
Autores: Sirui Xie, Zhisheng Xiao, Diederik P Kingma, Tingbo Hou, Ying Nian Wu, Kevin Patrick Murphy, Tim Salimans, Ben Poole, Ruiqi Gao
cs.AI
Resumo
Embora os modelos de difusão possam aprender distribuições complexas, a amostragem requer um processo iterativo computacionalmente caro. Métodos de destilação existentes permitem amostragem eficiente, mas apresentam limitações notáveis, como degradação de desempenho com poucos passos de amostragem, dependência de acesso a dados de treinamento ou otimização voltada para modos que pode falhar em capturar a distribuição completa. Propomos a Destilação EM (EMD), uma abordagem baseada em máxima verossimilhança que destila um modelo de difusão para um modelo gerador de um único passo com perda mínima de qualidade perceptual. Nossa abordagem é derivada através da lente do algoritmo Expectation-Maximization (EM), onde os parâmetros do gerador são atualizados usando amostras da distribuição conjunta do modelo de difusão professor e dos latentes inferidos do gerador. Desenvolvemos um esquema de amostragem reparametrizado e uma técnica de cancelamento de ruído que, juntos, estabilizam o processo de destilação. Além disso, revelamos uma conexão interessante de nosso método com métodos existentes que minimizam a divergência KL voltada para modos. O EMD supera métodos gerativos de um único passo existentes em termos de pontuações FID no ImageNet-64 e ImageNet-128, e se compara favoravelmente com trabalhos anteriores sobre destilação de modelos de difusão texto-para-imagem.
English
While diffusion models can learn complex distributions, sampling requires a
computationally expensive iterative process. Existing distillation methods
enable efficient sampling, but have notable limitations, such as performance
degradation with very few sampling steps, reliance on training data access, or
mode-seeking optimization that may fail to capture the full distribution. We
propose EM Distillation (EMD), a maximum likelihood-based approach that
distills a diffusion model to a one-step generator model with minimal loss of
perceptual quality. Our approach is derived through the lens of
Expectation-Maximization (EM), where the generator parameters are updated using
samples from the joint distribution of the diffusion teacher prior and inferred
generator latents. We develop a reparametrized sampling scheme and a noise
cancellation technique that together stabilizes the distillation process. We
further reveal an interesting connection of our method with existing methods
that minimize mode-seeking KL. EMD outperforms existing one-step generative
methods in terms of FID scores on ImageNet-64 and ImageNet-128, and compares
favorably with prior work on distilling text-to-image diffusion models.