SDXS: Real-time één-stap latente diffusiemodellen met beeldcondities
SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions
March 25, 2024
Auteurs: Yuda Song, Zehao Sun, Xuanwu Yin
cs.AI
Samenvatting
Recente vooruitgang in diffusiemodellen heeft hen aan de voorhoede van beeldgeneratie geplaatst. Ondanks hun superieure prestaties zijn diffusiemodellen niet zonder nadelen; ze worden gekenmerkt door complexe architecturen en aanzienlijke rekenkundige eisen, wat resulteert in aanzienlijke latentie vanwege hun iteratieve samplingproces. Om deze beperkingen te verminderen, introduceren we een dubbele aanpak die modelminiaturisatie en een vermindering van samplingstappen omvat, gericht op het aanzienlijk verlagen van model latentie. Onze methodologie maakt gebruik van kennisdistillatie om de U-Net en beelddecoder architecturen te stroomlijnen, en introduceert een innovatieve één-stap DM-trainingsmethode die gebruikmaakt van feature matching en score distillatie. We presenteren twee modellen, SDXS-512 en SDXS-1024, die respectievelijk inferentiesnelheden bereiken van ongeveer 100 FPS (30x sneller dan SD v1.5) en 30 FPS (60x sneller dan SDXL) op een enkele GPU. Bovendien biedt onze trainingsaanpak veelbelovende toepassingen in beeld-geconditioneerde controle, waardoor efficiënte beeld-naar-beeld vertaling mogelijk wordt gemaakt.
English
Recent advancements in diffusion models have positioned them at the forefront
of image generation. Despite their superior performance, diffusion models are
not without drawbacks; they are characterized by complex architectures and
substantial computational demands, resulting in significant latency due to
their iterative sampling process. To mitigate these limitations, we introduce a
dual approach involving model miniaturization and a reduction in sampling
steps, aimed at significantly decreasing model latency. Our methodology
leverages knowledge distillation to streamline the U-Net and image decoder
architectures, and introduces an innovative one-step DM training technique that
utilizes feature matching and score distillation. We present two models,
SDXS-512 and SDXS-1024, achieving inference speeds of approximately 100 FPS
(30x faster than SD v1.5) and 30 FP (60x faster than SDXL) on a single GPU,
respectively. Moreover, our training approach offers promising applications in
image-conditioned control, facilitating efficient image-to-image translation.