마스크된 저하 분류를 통한 범용 이미지 복원 사전 학습
Universal Image Restoration Pre-training via Masked Degradation Classification
October 15, 2025
저자: JiaKui Hu, Zhengjian Yao, Lujia Jin, Yinghao Chen, Yanye Lu
cs.AI
초록
본 연구는 입력 이미지의 열화 유형 분류를 용이하게 하여 포괄적인 이미지 복원 사전 학습을 가능하게 하는 Masked Degradation Classification Pre-Training 방법(MaskDCPT)을 소개합니다. 기존의 사전 학습 방법과 달리, MaskDCPT는 이미지의 열화 유형을 극히 약한 감독 신호로 사용하면서 동시에 이미지 재구성을 통해 성능과 견고성을 향상시킵니다. MaskDCPT는 인코더와 두 개의 디코더로 구성됩니다: 인코더는 마스킹된 저품질 입력 이미지에서 특징을 추출하고, 분류 디코더는 이러한 특징을 사용하여 열화 유형을 식별하며, 재구성 디코더는 해당 고품질 이미지를 재구성하는 것을 목표로 합니다. 이 설계는 마스킹된 이미지 모델링과 대조 학습 모두로부터 이점을 얻어 복원 작업에 적합한 일반화된 표현을 가능하게 합니다. 직관적이면서도 강력한 MaskDCPT 덕분에, 사전 학습된 인코더는 보편적인 이미지 복원 문제를 해결하고 탁월한 성능을 달성하는 데 사용될 수 있습니다. MaskDCPT를 구현하면 합성곱 신경망(CNN)과 트랜스포머 모두에서 성능이 크게 향상되며, 5D 올인원 복원 작업에서 PSNR이 최소 3.77dB 증가하고, 실제 열화 시나리오에서 PIQE가 기준선 대비 34.8% 감소합니다. 또한 이전에 보지 못한 열화 유형과 수준에 대해 강력한 일반화 능력을 보입니다. 추가적으로, 우리는 19가지 열화 유형과 200개 이상의 열화 수준에 걸쳐 250만 개의 복원 샘플 쌍을 포함하며 합성 데이터와 실제 데이터를 모두 통합한 UIR-2.5M 데이터셋을 구축하고 공개했습니다. 데이터셋, 소스 코드, 모델은 https://github.com/MILab-PKU/MaskDCPT에서 확인할 수 있습니다.
English
This study introduces a Masked Degradation Classification Pre-Training method
(MaskDCPT), designed to facilitate the classification of degradation types in
input images, leading to comprehensive image restoration pre-training. Unlike
conventional pre-training methods, MaskDCPT uses the degradation type of the
image as an extremely weak supervision, while simultaneously leveraging the
image reconstruction to enhance performance and robustness. MaskDCPT includes
an encoder and two decoders: the encoder extracts features from the masked
low-quality input image. The classification decoder uses these features to
identify the degradation type, whereas the reconstruction decoder aims to
reconstruct a corresponding high-quality image. This design allows the
pre-training to benefit from both masked image modeling and contrastive
learning, resulting in a generalized representation suited for restoration
tasks. Benefit from the straightforward yet potent MaskDCPT, the pre-trained
encoder can be used to address universal image restoration and achieve
outstanding performance. Implementing MaskDCPT significantly improves
performance for both convolution neural networks (CNNs) and Transformers, with
a minimum increase in PSNR of 3.77 dB in the 5D all-in-one restoration task and
a 34.8% reduction in PIQE compared to baseline in real-world degradation
scenarios. It also emergences strong generalization to previously unseen
degradation types and levels. In addition, we curate and release the UIR-2.5M
dataset, which includes 2.5 million paired restoration samples across 19
degradation types and over 200 degradation levels, incorporating both synthetic
and real-world data. The dataset, source code, and models are available at
https://github.com/MILab-PKU/MaskDCPT.