Onzekerheidsbewuste Visie-Taal Segmentatie voor Medische Beeldvorming
Uncertainty-Aware Vision-Language Segmentation for Medical Imaging
February 16, 2026
Auteurs: Aryan Das, Tanishq Rachamalla, Koushik Biswas, Swalpa Kumar Roy, Vinay Kumar Verma
cs.AI
Samenvatting
Wij introduceren een nieuw onzekerheidsbewust multimodaal segmentatieraamwerk dat zowel radiologische beelden als bijbehorende klinische tekst benut voor een precieze medische diagnose. Wij stellen een Modaliteitsdecoderings-Attentieblok (MoDAB) voor met een lichtgewicht State Space Mixer (SSMix) om efficiënte kruismodale fusie en modellering van afhankelijkheden over lange afstand mogelijk te maken. Om het leren onder ambiguïteit te sturen, stellen wij het Spectral-Entropische Onzekerheidsverlies (SEU-verlies) voor, dat ruimtelijke overlap, spectrale consistentie en voorspellende onzekerheid gezamenlijk vastlegt in een uniforme doelstelling. In complexe klinische omstandigheden met slechte beeldkwaliteit verbetert deze formulering de betrouwbaarheid van het model. Uitgebreide experimenten op diverse vrij toegankelijke medische datasets, QATA-COVID19, MosMed++ en Kvasir-SEG, tonen aan dat onze methode superieure segmentatieprestaties bereikt en tegelijkertijd aanzienlijk rekenkundig efficiënter is dan bestaande state-of-the-art (SoTA) benaderingen. Onze resultaten benadrukken het belang van het incorporeren van onzekerheidsmodellering en gestructureerde modaliteitsafstemming bij visie-taal medische segmentatietaken. Code: https://github.com/arya-domain/UA-VLS
English
We introduce a novel uncertainty-aware multimodal segmentation framework that leverages both radiological images and associated clinical text for precise medical diagnosis. We propose a Modality Decoding Attention Block (MoDAB) with a lightweight State Space Mixer (SSMix) to enable efficient cross-modal fusion and long-range dependency modelling. To guide learning under ambiguity, we propose the Spectral-Entropic Uncertainty (SEU) Loss, which jointly captures spatial overlap, spectral consistency, and predictive uncertainty in a unified objective. In complex clinical circumstances with poor image quality, this formulation improves model reliability. Extensive experiments on various publicly available medical datasets, QATA-COVID19, MosMed++, and Kvasir-SEG, demonstrate that our method achieves superior segmentation performance while being significantly more computationally efficient than existing State-of-the-Art (SoTA) approaches. Our results highlight the importance of incorporating uncertainty modelling and structured modality alignment in vision-language medical segmentation tasks. Code: https://github.com/arya-domain/UA-VLS