Pré-treinamento Universal para Restauração de Imagens via Classificação de Degradação Mascarada

Resumo

Este estudo introduz um método de Pré-Treinamento de Classificação de Degradação Mascarada (MaskDCPT), projetado para facilitar a classificação dos tipos de degradação em imagens de entrada, levando a um pré-treinamento abrangente de restauração de imagens. Diferente dos métodos convencionais de pré-treinamento, o MaskDCPT utiliza o tipo de degradação da imagem como uma supervisão extremamente fraca, enquanto simultaneamente aproveita a reconstrução da imagem para melhorar o desempenho e a robustez. O MaskDCPT inclui um codificador e dois decodificadores: o codificador extrai características da imagem de baixa qualidade mascarada. O decodificador de classificação utiliza essas características para identificar o tipo de degradação, enquanto o decodificador de reconstrução visa reconstruir uma imagem de alta qualidade correspondente. Esse design permite que o pré-treinamento se beneficie tanto da modelagem de imagem mascarada quanto do aprendizado contrastivo, resultando em uma representação generalizada adequada para tarefas de restauração. Beneficiando-se do MaskDCPT simples, porém potente, o codificador pré-treinado pode ser usado para abordar a restauração universal de imagens e alcançar desempenho excepcional. A implementação do MaskDCPT melhora significativamente o desempenho tanto para redes neurais convolucionais (CNNs) quanto para Transformers, com um aumento mínimo de 3,77 dB no PSNR na tarefa de restauração all-in-one 5D e uma redução de 34,8% no PIQE em comparação com a linha de base em cenários de degradação do mundo real. Ele também demonstra forte generalização para tipos e níveis de degradação previamente não vistos. Além disso, organizamos e lançamos o conjunto de dados UIR-2.5M, que inclui 2,5 milhões de amostras de restauração pareadas em 19 tipos de degradação e mais de 200 níveis de degradação, incorporando dados sintéticos e do mundo real. O conjunto de dados, código-fonte e modelos estão disponíveis em https://github.com/MILab-PKU/MaskDCPT.

English

This study introduces a Masked Degradation Classification Pre-Training method (MaskDCPT), designed to facilitate the classification of degradation types in input images, leading to comprehensive image restoration pre-training. Unlike conventional pre-training methods, MaskDCPT uses the degradation type of the image as an extremely weak supervision, while simultaneously leveraging the image reconstruction to enhance performance and robustness. MaskDCPT includes an encoder and two decoders: the encoder extracts features from the masked low-quality input image. The classification decoder uses these features to identify the degradation type, whereas the reconstruction decoder aims to reconstruct a corresponding high-quality image. This design allows the pre-training to benefit from both masked image modeling and contrastive learning, resulting in a generalized representation suited for restoration tasks. Benefit from the straightforward yet potent MaskDCPT, the pre-trained encoder can be used to address universal image restoration and achieve outstanding performance. Implementing MaskDCPT significantly improves performance for both convolution neural networks (CNNs) and Transformers, with a minimum increase in PSNR of 3.77 dB in the 5D all-in-one restoration task and a 34.8% reduction in PIQE compared to baseline in real-world degradation scenarios. It also emergences strong generalization to previously unseen degradation types and levels. In addition, we curate and release the UIR-2.5M dataset, which includes 2.5 million paired restoration samples across 19 degradation types and over 200 degradation levels, incorporating both synthetic and real-world data. The dataset, source code, and models are available at https://github.com/MILab-PKU/MaskDCPT.

Pré-treinamento Universal para Restauração de Imagens via Classificação de Degradação Mascarada

Universal Image Restoration Pre-training via Masked Degradation Classification

Resumo

Support