Síntese Rápida de Imagens de Alta Resolução com Distilação de Difusão Adversarial Latente
Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation
March 18, 2024
Autores: Axel Sauer, Frederic Boesel, Tim Dockhorn, Andreas Blattmann, Patrick Esser, Robin Rombach
cs.AI
Resumo
Os modelos de difusão são os principais impulsionadores do progresso na síntese de imagens e vídeos, mas sofrem com a lentidão na inferência. Métodos de destilação, como a recentemente introduzida destilação de difusão adversarial (ADD), visam transformar o modelo de uma inferência de múltiplos passos para um único passo, embora ao custo de uma otimização cara e difícil devido à sua dependência de um discriminador DINOv2 pré-treinado e fixo. Apresentamos a Destilação de Difusão Adversarial Latente (LADD), uma nova abordagem de destilação que supera as limitações da ADD. Em contraste com a ADD baseada em pixels, a LADD utiliza características gerativas de modelos de difusão latente pré-treinados. Essa abordagem simplifica o treinamento e melhora o desempenho, permitindo a síntese de imagens de alta resolução com múltiplas proporções de aspecto. Aplicamos a LADD ao Stable Diffusion 3 (8B) para obter o SD3-Turbo, um modelo rápido que iguala o desempenho dos melhores geradores de texto para imagem usando apenas quatro passos de amostragem não guiada. Além disso, investigamos sistematicamente seu comportamento de escalonamento e demonstramos a eficácia da LADD em várias aplicações, como edição de imagens e preenchimento de lacunas.
English
Diffusion models are the main driver of progress in image and video
synthesis, but suffer from slow inference speed. Distillation methods, like the
recently introduced adversarial diffusion distillation (ADD) aim to shift the
model from many-shot to single-step inference, albeit at the cost of expensive
and difficult optimization due to its reliance on a fixed pretrained DINOv2
discriminator. We introduce Latent Adversarial Diffusion Distillation (LADD), a
novel distillation approach overcoming the limitations of ADD. In contrast to
pixel-based ADD, LADD utilizes generative features from pretrained latent
diffusion models. This approach simplifies training and enhances performance,
enabling high-resolution multi-aspect ratio image synthesis. We apply LADD to
Stable Diffusion 3 (8B) to obtain SD3-Turbo, a fast model that matches the
performance of state-of-the-art text-to-image generators using only four
unguided sampling steps. Moreover, we systematically investigate its scaling
behavior and demonstrate LADD's effectiveness in various applications such as
image editing and inpainting.