ChatPaper.aiChatPaper

이미지 초해상도를 위한 일단계 잔차 이동 확산: 증류 기반 접근법

One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation

March 17, 2025
저자: Daniil Selikhanovych, David Li, Aleksei Leonov, Nikita Gushchin, Sergei Kushneriuk, Alexander Filippov, Evgeny Burnaev, Iaroslav Koshelev, Alexander Korotin
cs.AI

초록

초해상도(Super-Resolution, SR)를 위한 확산 모델(Diffusion Models)은 고품질의 시각적 결과를 생성하지만 높은 계산 비용을 요구합니다. 확산 기반 SR 모델의 속도를 높이기 위한 여러 방법이 개발되었음에도 불구하고, 일부 방법(예: SinSR)은 현실적인 지각적 디테일을 생성하지 못하는 반면, 다른 방법(예: OSEDiff)은 존재하지 않는 구조를 허구적으로 생성할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 최고 수준의 확산 기반 SR 모델 중 하나인 ResShift를 위한 새로운 지식 증류(Distillation) 방법인 RSD를 제안합니다. 우리의 방법은 학생 네트워크가 새로운 가짜 ResShift 모델이 그 위에서 학습될 때 교사 모델과 일치하는 이미지를 생성하도록 훈련하는 것을 기반으로 합니다. RSD는 단일 단계 복원을 달성하며 교사 모델을 크게 능가합니다. 우리의 지식 증류 방법이 ResShift를 위한 다른 지식 증류 기반 방법인 SinSR를 능가하여 최신 확산 기반 SR 지식 증류 방법과 동등한 수준임을 보여줍니다. 사전 훈련된 텍스트-이미지 모델 기반의 SR 방법과 비교했을 때, RSD는 경쟁력 있는 지각적 품질을 제공하며, 저하된 입력 이미지와 더 잘 정렬된 이미지를 생성하고, 더 적은 매개변수와 GPU 메모리를 요구합니다. 우리는 RealSR, RealSet65, DRealSR, ImageNet, DIV2K를 포함한 다양한 실제 및 합성 데이터셋에 대한 실험 결과를 제공합니다.
English
Diffusion models for super-resolution (SR) produce high-quality visual results but require expensive computational costs. Despite the development of several methods to accelerate diffusion-based SR models, some (e.g., SinSR) fail to produce realistic perceptual details, while others (e.g., OSEDiff) may hallucinate non-existent structures. To overcome these issues, we present RSD, a new distillation method for ResShift, one of the top diffusion-based SR models. Our method is based on training the student network to produce such images that a new fake ResShift model trained on them will coincide with the teacher model. RSD achieves single-step restoration and outperforms the teacher by a large margin. We show that our distillation method can surpass the other distillation-based method for ResShift - SinSR - making it on par with state-of-the-art diffusion-based SR distillation methods. Compared to SR methods based on pre-trained text-to-image models, RSD produces competitive perceptual quality, provides images with better alignment to degraded input images, and requires fewer parameters and GPU memory. We provide experimental results on various real-world and synthetic datasets, including RealSR, RealSet65, DRealSR, ImageNet, and DIV2K.

Summary

AI-Generated Summary

PDF962March 21, 2025