マスク付き劣化分類による汎用画像復元事前学習
Universal Image Restoration Pre-training via Masked Degradation Classification
October 15, 2025
著者: JiaKui Hu, Zhengjian Yao, Lujia Jin, Yinghao Chen, Yanye Lu
cs.AI
要旨
本研究では、入力画像の劣化タイプの分類を容易にし、包括的な画像復元の事前学習を実現するためのMasked Degradation Classification Pre-Training(MaskDCPT)手法を提案する。従来の事前学習手法とは異なり、MaskDCPTは画像の劣化タイプを極めて弱い教師信号として利用しつつ、画像再構築を活用して性能とロバスト性を向上させる。MaskDCPTはエンコーダと2つのデコーダで構成されており、エンコーダはマスクされた低品質入力画像から特徴を抽出する。分類デコーダはこれらの特徴を用いて劣化タイプを識別し、再構築デコーダは対応する高品質画像の再構築を目指す。この設計により、事前学習はマスク画像モデリングとコントラスティブ学習の両方の利点を享受し、復元タスクに適した汎用的な表現を獲得する。シンプルでありながら強力なMaskDCPTの恩恵により、事前学習されたエンコーダは普遍的な画像復元に適用され、優れた性能を発揮する。MaskDCPTの実装は、畳み込みニューラルネットワーク(CNN)とTransformerの両方において性能を大幅に向上させ、5Dオールインワン復元タスクではPSNRが最低3.77 dB向上し、実世界の劣化シナリオではPIQEがベースライン比で34.8%減少する。また、未見の劣化タイプやレベルに対しても強い汎化性能を示す。さらに、19の劣化タイプと200以上の劣化レベルにわたる250万組の復元サンプルを含むUIR-2.5Mデータセットを整備し公開した。このデータセットには合成データと実世界データの両方が含まれる。データセット、ソースコード、およびモデルはhttps://github.com/MILab-PKU/MaskDCPTで公開されている。
English
This study introduces a Masked Degradation Classification Pre-Training method
(MaskDCPT), designed to facilitate the classification of degradation types in
input images, leading to comprehensive image restoration pre-training. Unlike
conventional pre-training methods, MaskDCPT uses the degradation type of the
image as an extremely weak supervision, while simultaneously leveraging the
image reconstruction to enhance performance and robustness. MaskDCPT includes
an encoder and two decoders: the encoder extracts features from the masked
low-quality input image. The classification decoder uses these features to
identify the degradation type, whereas the reconstruction decoder aims to
reconstruct a corresponding high-quality image. This design allows the
pre-training to benefit from both masked image modeling and contrastive
learning, resulting in a generalized representation suited for restoration
tasks. Benefit from the straightforward yet potent MaskDCPT, the pre-trained
encoder can be used to address universal image restoration and achieve
outstanding performance. Implementing MaskDCPT significantly improves
performance for both convolution neural networks (CNNs) and Transformers, with
a minimum increase in PSNR of 3.77 dB in the 5D all-in-one restoration task and
a 34.8% reduction in PIQE compared to baseline in real-world degradation
scenarios. It also emergences strong generalization to previously unseen
degradation types and levels. In addition, we curate and release the UIR-2.5M
dataset, which includes 2.5 million paired restoration samples across 19
degradation types and over 200 degradation levels, incorporating both synthetic
and real-world data. The dataset, source code, and models are available at
https://github.com/MILab-PKU/MaskDCPT.