Difusión de Desplazamiento Residual en un Solo Paso para Superresolución de Imágenes mediante Destilación
One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation
March 17, 2025
Autores: Daniil Selikhanovych, David Li, Aleksei Leonov, Nikita Gushchin, Sergei Kushneriuk, Alexander Filippov, Evgeny Burnaev, Iaroslav Koshelev, Alexander Korotin
cs.AI
Resumen
Los modelos de difusión para super-resolución (SR) producen resultados visuales de alta calidad, pero requieren costos computacionales elevados. A pesar del desarrollo de varios métodos para acelerar los modelos de SR basados en difusión, algunos (por ejemplo, SinSR) no logran producir detalles perceptivos realistas, mientras que otros (por ejemplo, OSEDiff) pueden generar estructuras inexistentes. Para superar estos problemas, presentamos RSD, un nuevo método de destilación para ResShift, uno de los principales modelos de SR basados en difusión. Nuestro método se basa en entrenar la red estudiante para producir imágenes tales que un nuevo modelo falso de ResShift entrenado con ellas coincida con el modelo maestro. RSD logra una restauración en un solo paso y supera al modelo maestro por un amplio margen. Demostramos que nuestro método de destilación puede superar a otro método de destilación para ResShift, SinSR, situándolo a la par con los métodos de destilación de SR basados en difusión más avanzados. En comparación con los métodos de SR basados en modelos preentrenados de texto a imagen, RSD produce una calidad perceptiva competitiva, ofrece imágenes con mejor alineación respecto a las imágenes de entrada degradadas y requiere menos parámetros y memoria de GPU. Proporcionamos resultados experimentales en varios conjuntos de datos del mundo real y sintéticos, incluyendo RealSR, RealSet65, DRealSR, ImageNet y DIV2K.
English
Diffusion models for super-resolution (SR) produce high-quality visual
results but require expensive computational costs. Despite the development of
several methods to accelerate diffusion-based SR models, some (e.g., SinSR)
fail to produce realistic perceptual details, while others (e.g., OSEDiff) may
hallucinate non-existent structures. To overcome these issues, we present RSD,
a new distillation method for ResShift, one of the top diffusion-based SR
models. Our method is based on training the student network to produce such
images that a new fake ResShift model trained on them will coincide with the
teacher model. RSD achieves single-step restoration and outperforms the teacher
by a large margin. We show that our distillation method can surpass the other
distillation-based method for ResShift - SinSR - making it on par with
state-of-the-art diffusion-based SR distillation methods. Compared to SR
methods based on pre-trained text-to-image models, RSD produces competitive
perceptual quality, provides images with better alignment to degraded input
images, and requires fewer parameters and GPU memory. We provide experimental
results on various real-world and synthetic datasets, including RealSR,
RealSet65, DRealSR, ImageNet, and DIV2K.Summary
AI-Generated Summary