Preentrenamiento Universal para Restauración de Imágenes mediante Clasificación de Degradación Enmascarada
Universal Image Restoration Pre-training via Masked Degradation Classification
October 15, 2025
Autores: JiaKui Hu, Zhengjian Yao, Lujia Jin, Yinghao Chen, Yanye Lu
cs.AI
Resumen
Este estudio introduce un método de Pre-Entrenamiento de Clasificación de Degradación Enmascarada (MaskDCPT), diseñado para facilitar la clasificación de tipos de degradación en imágenes de entrada, lo que conduce a un pre-entrenamiento integral para la restauración de imágenes. A diferencia de los métodos de pre-entrenamiento convencionales, MaskDCPT utiliza el tipo de degradación de la imagen como una supervisión extremadamente débil, mientras aprovecha simultáneamente la reconstrucción de la imagen para mejorar el rendimiento y la robustez. MaskDCPT incluye un codificador y dos decodificadores: el codificador extrae características de la imagen de entrada de baja calidad enmascarada. El decodificador de clasificación utiliza estas características para identificar el tipo de degradación, mientras que el decodificador de reconstrucción tiene como objetivo reconstruir una imagen de alta calidad correspondiente. Este diseño permite que el pre-entrenamiento se beneficie tanto del modelado de imágenes enmascaradas como del aprendizaje contrastivo, resultando en una representación generalizada adecuada para tareas de restauración. Gracias a la sencillez y potencia de MaskDCPT, el codificador pre-entrenado puede utilizarse para abordar la restauración universal de imágenes y lograr un rendimiento sobresaliente. La implementación de MaskDCPT mejora significativamente el rendimiento tanto para redes neuronales convolucionales (CNNs) como para Transformers, con un aumento mínimo de 3.77 dB en PSNR en la tarea de restauración integral 5D y una reducción del 34.8% en PIQE en comparación con la línea base en escenarios de degradación del mundo real. También muestra una fuerte generalización para tipos y niveles de degradación previamente no vistos. Además, hemos creado y publicado el conjunto de datos UIR-2.5M, que incluye 2.5 millones de muestras de restauración emparejadas en 19 tipos de degradación y más de 200 niveles de degradación, incorporando tanto datos sintéticos como del mundo real. El conjunto de datos, el código fuente y los modelos están disponibles en https://github.com/MILab-PKU/MaskDCPT.
English
This study introduces a Masked Degradation Classification Pre-Training method
(MaskDCPT), designed to facilitate the classification of degradation types in
input images, leading to comprehensive image restoration pre-training. Unlike
conventional pre-training methods, MaskDCPT uses the degradation type of the
image as an extremely weak supervision, while simultaneously leveraging the
image reconstruction to enhance performance and robustness. MaskDCPT includes
an encoder and two decoders: the encoder extracts features from the masked
low-quality input image. The classification decoder uses these features to
identify the degradation type, whereas the reconstruction decoder aims to
reconstruct a corresponding high-quality image. This design allows the
pre-training to benefit from both masked image modeling and contrastive
learning, resulting in a generalized representation suited for restoration
tasks. Benefit from the straightforward yet potent MaskDCPT, the pre-trained
encoder can be used to address universal image restoration and achieve
outstanding performance. Implementing MaskDCPT significantly improves
performance for both convolution neural networks (CNNs) and Transformers, with
a minimum increase in PSNR of 3.77 dB in the 5D all-in-one restoration task and
a 34.8% reduction in PIQE compared to baseline in real-world degradation
scenarios. It also emergences strong generalization to previously unseen
degradation types and levels. In addition, we curate and release the UIR-2.5M
dataset, which includes 2.5 million paired restoration samples across 19
degradation types and over 200 degradation levels, incorporating both synthetic
and real-world data. The dataset, source code, and models are available at
https://github.com/MILab-PKU/MaskDCPT.