Eénstaps Residueverschuiving Diffusie voor Beeld Super-Resolutie via Destillatie
One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation
March 17, 2025
Auteurs: Daniil Selikhanovych, David Li, Aleksei Leonov, Nikita Gushchin, Sergei Kushneriuk, Alexander Filippov, Evgeny Burnaev, Iaroslav Koshelev, Alexander Korotin
cs.AI
Samenvatting
Diffusiemodellen voor superresolutie (SR) produceren hoogwaardige visuele resultaten maar vereisen dure rekenkosten. Ondanks de ontwikkeling van verschillende methoden om diffusiegebaseerde SR-modellen te versnellen, slagen sommige (bijv. SinSR) er niet in realistische perceptuele details te produceren, terwijl andere (bijv. OSEDiff) niet-bestaande structuren kunnen hallucineren. Om deze problemen te overwinnen, presenteren we RSD, een nieuwe destillatiemethode voor ResShift, een van de beste diffusiegebaseerde SR-modellen. Onze methode is gebaseerd op het trainen van het studentennetwerk om dergelijke afbeeldingen te produceren dat een nieuw nep-ResShift-model dat daarop wordt getraind, overeenkomt met het leraarmodel. RSD bereikt herstel in één stap en overtreft de leraar met een grote marge. We laten zien dat onze destillatiemethode de andere destillatiegebaseerde methode voor ResShift - SinSR - kan overtreffen, waardoor het op gelijke hoogte komt met state-of-the-art diffusiegebaseerde SR-destillatiemethoden. Vergeleken met SR-methoden gebaseerd op vooraf getrainde tekst-naar-afbeelding-modellen, produceert RSD een concurrerende perceptuele kwaliteit, levert het afbeeldingen met een betere uitlijning op de gedegradeerde invoerafbeeldingen en vereist het minder parameters en GPU-geheugen. We presenteren experimentele resultaten op verschillende real-world en synthetische datasets, waaronder RealSR, RealSet65, DRealSR, ImageNet en DIV2K.
English
Diffusion models for super-resolution (SR) produce high-quality visual
results but require expensive computational costs. Despite the development of
several methods to accelerate diffusion-based SR models, some (e.g., SinSR)
fail to produce realistic perceptual details, while others (e.g., OSEDiff) may
hallucinate non-existent structures. To overcome these issues, we present RSD,
a new distillation method for ResShift, one of the top diffusion-based SR
models. Our method is based on training the student network to produce such
images that a new fake ResShift model trained on them will coincide with the
teacher model. RSD achieves single-step restoration and outperforms the teacher
by a large margin. We show that our distillation method can surpass the other
distillation-based method for ResShift - SinSR - making it on par with
state-of-the-art diffusion-based SR distillation methods. Compared to SR
methods based on pre-trained text-to-image models, RSD produces competitive
perceptual quality, provides images with better alignment to degraded input
images, and requires fewer parameters and GPU memory. We provide experimental
results on various real-world and synthetic datasets, including RealSR,
RealSet65, DRealSR, ImageNet, and DIV2K.Summary
AI-Generated Summary