M2Retinexformer: Retinexformer Multi-Modal para Realce de Imagens com Baixa Iluminação

Resumo

A melhoria de imagens com pouca luz é desafiadora devido a degradações complexas, incluindo ruído amplificado, artefatos e distorção de cor. Embora métodos de aprendizado profundo baseados em Retinex tenham alcançado resultados promissores, eles dependem principalmente de informações RGB de modalidade única. Propomos o M2Retinexformer (Multi-Modal Retinexformer), uma nova estrutura que estende o Retinexformer ao incorporar pistas de profundidade, prioris de luminância e características semânticas dentro de um pipeline de refinamento progressivo. A profundidade fornece contexto geométrico invariante a variações de iluminação, enquanto as características de luminância e semântica oferecem orientação explícita sobre a distribuição de brilho e a compreensão da cena. As modalidades são extraídas em múltiplas escalas e fundidas por meio de atenção cruzada, com portas adaptativas equilibrando dinamicamente a autoatenção guiada por iluminação e a atenção cruzada com base na confiabilidade das pistas auxiliares. Avaliações nos benchmarks LOL, SID, SMID e SDSD demonstram melhorias gerais em relação ao Retinexformer e aos métodos recentes de última geração. O código e os pesos pré-treinados estão disponíveis em https://github.com/YoussefAboelwafa/M2Retinexformer.

English

Low-light image enhancement is challenging due to complex degradations, including amplified noise, artifacts, and color distortion. While Retinex-based deep learning methods have achieved promising results, they primarily rely on single-modality RGB information. We propose M2Retinexformer (Multi-Modal Retinexformer), a novel framework that extends Retinexformer by incorporating depth cues, luminance priors, and semantic features within a progressive refinement pipeline. Depth provides geometric context that is invariant to lighting variations, while luminance and semantic features offer explicit guidance on brightness distribution and scene understanding. Modalities are extracted at multiple scales and fused through cross-attention, with adaptive gating dynamically balancing illumination-guided self-attention and cross-attention based on the reliability of auxiliary cues. Evaluations on the LOL, SID, SMID, and SDSD benchmarks demonstrate overall improvements over Retinexformer and recent state-of-the-art methods. Code and pretrained weights are available at https://github.com/YoussefAboelwafa/M2Retinexformer