ChatPaper.aiChatPaper

SDXS: Modelli di Diffusione Latente in Tempo Reale a Un Passo con Condizioni Immagine

SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions

March 25, 2024
Autori: Yuda Song, Zehao Sun, Xuanwu Yin
cs.AI

Abstract

I recenti progressi nei modelli di diffusione li hanno posizionati all'avanguardia nella generazione di immagini. Nonostante le loro prestazioni superiori, i modelli di diffusione non sono privi di difetti; sono caratterizzati da architetture complesse e richieste computazionali sostanziali, che si traducono in una latenza significativa a causa del loro processo di campionamento iterativo. Per mitigare queste limitazioni, introduciamo un approccio duale che prevede la miniaturizzazione del modello e una riduzione dei passi di campionamento, mirato a diminuire significativamente la latenza del modello. La nostra metodologia sfrutta la distillazione della conoscenza per semplificare le architetture U-Net e del decodificatore di immagini, e introduce una tecnica innovativa di addestramento DM in un solo passo che utilizza il matching delle caratteristiche e la distillazione del punteggio. Presentiamo due modelli, SDXS-512 e SDXS-1024, che raggiungono velocità di inferenza di circa 100 FPS (30 volte più veloci di SD v1.5) e 30 FPS (60 volte più veloci di SDXL) su una singola GPU, rispettivamente. Inoltre, il nostro approccio di addestramento offre applicazioni promettenti nel controllo condizionato all'immagine, facilitando una traduzione efficiente da immagine a immagine.
English
Recent advancements in diffusion models have positioned them at the forefront of image generation. Despite their superior performance, diffusion models are not without drawbacks; they are characterized by complex architectures and substantial computational demands, resulting in significant latency due to their iterative sampling process. To mitigate these limitations, we introduce a dual approach involving model miniaturization and a reduction in sampling steps, aimed at significantly decreasing model latency. Our methodology leverages knowledge distillation to streamline the U-Net and image decoder architectures, and introduces an innovative one-step DM training technique that utilizes feature matching and score distillation. We present two models, SDXS-512 and SDXS-1024, achieving inference speeds of approximately 100 FPS (30x faster than SD v1.5) and 30 FP (60x faster than SDXL) on a single GPU, respectively. Moreover, our training approach offers promising applications in image-conditioned control, facilitating efficient image-to-image translation.
PDF223February 8, 2026