ChatPaper.aiChatPaper

M2Retinexformer: Multi-Modale Retinexformer voor Laaglichtbeeldverbetering

M2Retinexformer: Multi-Modal Retinexformer for Low-Light Image Enhancement

May 11, 2026
Auteurs: Youssef Aboelwafa, Hicham G. Elmongui, Marwan Torki
cs.AI

Samenvatting

Verbetering van beelden met weinig licht is een uitdaging vanwege complexe degradaties, zoals versterkte ruis, artefacten en kleurvervorming. Hoewel op Retinex gebaseerde deep learning-methoden veelbelovende resultaten hebben opgeleverd, vertrouwen zij voornamelijk op enkelvoudige RGB-informatie. Wij stellen M2Retinexformer (Multi-Modal Retinexformer) voor, een nieuw raamwerk dat Retinexformer uitbreidt door dieptesignalen, luminantieprioriteiten en semantische kenmerken te integreren in een progressieve verfijningspijplijn. Diepte biedt geometrische context die invariant is voor lichtvariaties, terwijl luminantie- en semantische kenmerken expliciete begeleiding geven over helderheidsverdeling en scènebegrip. Modaliteiten worden op meerdere schalen geëxtraheerd en samengevoegd via kruisaandacht, met adaptieve gating die dynamisch de verlichtingsgestuurde zelfaandacht en kruisaandacht balanceert op basis van de betrouwbaarheid van hulpsignalen. Evaluaties op de LOL-, SID-, SMID- en SDSD-benchmarks tonen algehele verbeteringen aan ten opzichte van Retinexformer en recente state-of-the-art methoden. Code en voorgetrainde gewichten zijn beschikbaar op https://github.com/YoussefAboelwafa/M2Retinexformer.
English
Low-light image enhancement is challenging due to complex degradations, including amplified noise, artifacts, and color distortion. While Retinex-based deep learning methods have achieved promising results, they primarily rely on single-modality RGB information. We propose M2Retinexformer (Multi-Modal Retinexformer), a novel framework that extends Retinexformer by incorporating depth cues, luminance priors, and semantic features within a progressive refinement pipeline. Depth provides geometric context that is invariant to lighting variations, while luminance and semantic features offer explicit guidance on brightness distribution and scene understanding. Modalities are extracted at multiple scales and fused through cross-attention, with adaptive gating dynamically balancing illumination-guided self-attention and cross-attention based on the reliability of auxiliary cues. Evaluations on the LOL, SID, SMID, and SDSD benchmarks demonstrate overall improvements over Retinexformer and recent state-of-the-art methods. Code and pretrained weights are available at https://github.com/YoussefAboelwafa/M2Retinexformer