Diffusione a Spostamento Residuo in Un Passo per il Super-Risoluzione delle Immagini tramite Distillazione
One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation
March 17, 2025
Autori: Daniil Selikhanovych, David Li, Aleksei Leonov, Nikita Gushchin, Sergei Kushneriuk, Alexander Filippov, Evgeny Burnaev, Iaroslav Koshelev, Alexander Korotin
cs.AI
Abstract
I modelli di diffusione per la super-risoluzione (SR) producono risultati visivi di alta qualità ma richiedono costi computazionali elevati. Nonostante lo sviluppo di diversi metodi per accelerare i modelli SR basati sulla diffusione, alcuni (ad esempio, SinSR) non riescono a produrre dettagli percettivi realistici, mentre altri (ad esempio, OSEDiff) possono allucinare strutture inesistenti. Per superare questi problemi, presentiamo RSD, un nuovo metodo di distillazione per ResShift, uno dei migliori modelli SR basati sulla diffusione. Il nostro metodo si basa sull'addestramento della rete studente a produrre immagini tali per cui un nuovo modello ResShift fittizio addestrato su di esse coinciderà con il modello insegnante. RSD raggiunge il ripristino in un singolo passo e supera il modello insegnante con un ampio margine. Dimostriamo che il nostro metodo di distillazione può superare l'altro metodo di distillazione basato su ResShift - SinSR - rendendolo alla pari con i metodi di distillazione SR basati sulla diffusione all'avanguardia. Rispetto ai metodi SR basati su modelli pre-addestrati di testo-immagine, RSD produce una qualità percettiva competitiva, fornisce immagini con un migliore allineamento alle immagini di input degradate e richiede meno parametri e memoria GPU. Forniamo risultati sperimentali su vari dataset reali e sintetici, tra cui RealSR, RealSet65, DRealSR, ImageNet e DIV2K.
English
Diffusion models for super-resolution (SR) produce high-quality visual
results but require expensive computational costs. Despite the development of
several methods to accelerate diffusion-based SR models, some (e.g., SinSR)
fail to produce realistic perceptual details, while others (e.g., OSEDiff) may
hallucinate non-existent structures. To overcome these issues, we present RSD,
a new distillation method for ResShift, one of the top diffusion-based SR
models. Our method is based on training the student network to produce such
images that a new fake ResShift model trained on them will coincide with the
teacher model. RSD achieves single-step restoration and outperforms the teacher
by a large margin. We show that our distillation method can surpass the other
distillation-based method for ResShift - SinSR - making it on par with
state-of-the-art diffusion-based SR distillation methods. Compared to SR
methods based on pre-trained text-to-image models, RSD produces competitive
perceptual quality, provides images with better alignment to degraded input
images, and requires fewer parameters and GPU memory. We provide experimental
results on various real-world and synthetic datasets, including RealSR,
RealSet65, DRealSR, ImageNet, and DIV2K.