SDXS: Modelos de Difusão Latente em Tempo Real com Passo Único e Condicionamento por Imagem

Resumo

Os recentes avanços nos modelos de difusão os posicionaram na vanguarda da geração de imagens. Apesar de seu desempenho superior, os modelos de difusão não estão isentos de desvantagens; eles são caracterizados por arquiteturas complexas e demandas computacionais substanciais, resultando em latência significativa devido ao seu processo de amostragem iterativo. Para mitigar essas limitações, introduzimos uma abordagem dupla que envolve a miniaturização do modelo e a redução de etapas de amostragem, visando diminuir consideravelmente a latência do modelo. Nossa metodologia aproveita a destilação de conhecimento para simplificar as arquiteturas U-Net e do decodificador de imagens, e introduz uma técnica inovadora de treinamento de DM em uma única etapa que utiliza correspondência de características e destilação de pontuação. Apresentamos dois modelos, SDXS-512 e SDXS-1024, alcançando velocidades de inferência de aproximadamente 100 FPS (30x mais rápido que o SD v1.5) e 30 FPS (60x mais rápido que o SDXL) em uma única GPU, respectivamente. Além disso, nossa abordagem de treinamento oferece aplicações promissoras no controle condicionado por imagem, facilitando a tradução eficiente de imagem para imagem.

English

Recent advancements in diffusion models have positioned them at the forefront of image generation. Despite their superior performance, diffusion models are not without drawbacks; they are characterized by complex architectures and substantial computational demands, resulting in significant latency due to their iterative sampling process. To mitigate these limitations, we introduce a dual approach involving model miniaturization and a reduction in sampling steps, aimed at significantly decreasing model latency. Our methodology leverages knowledge distillation to streamline the U-Net and image decoder architectures, and introduces an innovative one-step DM training technique that utilizes feature matching and score distillation. We present two models, SDXS-512 and SDXS-1024, achieving inference speeds of approximately 100 FPS (30x faster than SD v1.5) and 30 FP (60x faster than SDXL) on a single GPU, respectively. Moreover, our training approach offers promising applications in image-conditioned control, facilitating efficient image-to-image translation.

SDXS: Modelos de Difusão Latente em Tempo Real com Passo Único e Condicionamento por Imagem

SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions

Resumo

Support