SDXS: Modelos de Difusão Latente em Tempo Real com Passo Único e Condicionamento por Imagem
SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions
March 25, 2024
Autores: Yuda Song, Zehao Sun, Xuanwu Yin
cs.AI
Resumo
Os recentes avanços nos modelos de difusão os posicionaram na vanguarda da geração de imagens. Apesar de seu desempenho superior, os modelos de difusão não estão isentos de desvantagens; eles são caracterizados por arquiteturas complexas e demandas computacionais substanciais, resultando em latência significativa devido ao seu processo de amostragem iterativo. Para mitigar essas limitações, introduzimos uma abordagem dupla que envolve a miniaturização do modelo e a redução de etapas de amostragem, visando diminuir consideravelmente a latência do modelo. Nossa metodologia aproveita a destilação de conhecimento para simplificar as arquiteturas U-Net e do decodificador de imagens, e introduz uma técnica inovadora de treinamento de DM em uma única etapa que utiliza correspondência de características e destilação de pontuação. Apresentamos dois modelos, SDXS-512 e SDXS-1024, alcançando velocidades de inferência de aproximadamente 100 FPS (30x mais rápido que o SD v1.5) e 30 FPS (60x mais rápido que o SDXL) em uma única GPU, respectivamente. Além disso, nossa abordagem de treinamento oferece aplicações promissoras no controle condicionado por imagem, facilitando a tradução eficiente de imagem para imagem.
English
Recent advancements in diffusion models have positioned them at the forefront
of image generation. Despite their superior performance, diffusion models are
not without drawbacks; they are characterized by complex architectures and
substantial computational demands, resulting in significant latency due to
their iterative sampling process. To mitigate these limitations, we introduce a
dual approach involving model miniaturization and a reduction in sampling
steps, aimed at significantly decreasing model latency. Our methodology
leverages knowledge distillation to streamline the U-Net and image decoder
architectures, and introduces an innovative one-step DM training technique that
utilizes feature matching and score distillation. We present two models,
SDXS-512 and SDXS-1024, achieving inference speeds of approximately 100 FPS
(30x faster than SD v1.5) and 30 FP (60x faster than SDXL) on a single GPU,
respectively. Moreover, our training approach offers promising applications in
image-conditioned control, facilitating efficient image-to-image translation.