Unsicherheitsbewusste Bild-Text-Segmentierung für die medizinische Bildgebung
Uncertainty-Aware Vision-Language Segmentation for Medical Imaging
February 16, 2026
Autoren: Aryan Das, Tanishq Rachamalla, Koushik Biswas, Swalpa Kumar Roy, Vinay Kumar Verma
cs.AI
Zusammenfassung
Wir stellen ein neuartiges unsicherheitsbasiertes multimodales Segmentierungsframework vor, das sowohl radiologische Bilder als auch zugehörige klinische Texte für präzise medizinische Diagnosen nutzt. Wir präsentieren einen Modalitäts-Decoding-Attentionsblock (MoDAB) mit einem leichtgewichtigen State-Space-Mixer (SSMix), um effiziente cross-modale Fusion und Modellierung von Langreichweiteneinflüssen zu ermöglichen. Zur Steuerung des Lernprozesses bei Mehrdeutigkeiten schlagen wir den Spectral-Entropic Uncertainty (SEU) Loss vor, der räumliche Überlappung, spektrale Konsistenz und Vorhersageunsicherheit in einem einheitlichen Ziel vereint. Bei komplexen klinischen Szenarien mit schlechter Bildqualität verbessert diese Formulierung die Modellzuverlässigkeit. Umfangreiche Experimente mit verschiedenen öffentlich verfügbaren medizinischen Datensätzen – QATA-COVID19, MosMed++ und Kvasir-SEG – zeigen, dass unsere Methode eine überlegene Segmentierungsleistung erzielt und dabei deutlich recheneffizienter ist als bestehende State-of-the-Art (SoTA) Ansätze. Unsere Ergebnisse unterstreichen die Bedeutung von Unsicherheitsmodellierung und strukturierter Modalitätsausrichtung bei Vision-Language-Segmentierungsaufgaben in der Medizin. Code: https://github.com/arya-domain/UA-VLS
English
We introduce a novel uncertainty-aware multimodal segmentation framework that leverages both radiological images and associated clinical text for precise medical diagnosis. We propose a Modality Decoding Attention Block (MoDAB) with a lightweight State Space Mixer (SSMix) to enable efficient cross-modal fusion and long-range dependency modelling. To guide learning under ambiguity, we propose the Spectral-Entropic Uncertainty (SEU) Loss, which jointly captures spatial overlap, spectral consistency, and predictive uncertainty in a unified objective. In complex clinical circumstances with poor image quality, this formulation improves model reliability. Extensive experiments on various publicly available medical datasets, QATA-COVID19, MosMed++, and Kvasir-SEG, demonstrate that our method achieves superior segmentation performance while being significantly more computationally efficient than existing State-of-the-Art (SoTA) approaches. Our results highlight the importance of incorporating uncertainty modelling and structured modality alignment in vision-language medical segmentation tasks. Code: https://github.com/arya-domain/UA-VLS