Segmentación Visión-Lenguaje con Conciencia de la Incertidumbre para Imágenes Médicas
Uncertainty-Aware Vision-Language Segmentation for Medical Imaging
February 16, 2026
Autores: Aryan Das, Tanishq Rachamalla, Koushik Biswas, Swalpa Kumar Roy, Vinay Kumar Verma
cs.AI
Resumen
Introducimos un novedoso marco de segmentación multimodal consciente de la incertidumbre que aprovecha tanto las imágenes radiológicas como el texto clínico asociado para un diagnóstico médico preciso. Proponemos un Bloque de Atención de Decodificación de Modalidad (MoDAB) con un Mezclador de Espacio de Estados ligero (SSMix) para permitir una fusión multimodal eficiente y un modelado de dependencias de largo alcance. Para guiar el aprendizaje bajo ambigüedad, proponemos la Pérdida por Incertidumbre Espectro-Entrópica (SEU), que captura conjuntamente la superposición espacial, la consistencia espectral y la incertidumbre predictiva en un objetivo unificado. En circunstancias clínicas complejas con mala calidad de imagen, esta formulación mejora la fiabilidad del modelo. Experimentos exhaustivos en varios conjuntos de datos médicos de acceso público, QATA-COVID19, MosMed++ y Kvasir-SEG, demuestran que nuestro método logra un rendimiento de segmentación superior siendo significativamente más eficiente computacionalmente que los enfoques State-of-the-Art (SoTA) existentes. Nuestros resultados subrayan la importancia de incorporar el modelado de incertidumbre y la alineación estructurada de modalidades en tareas de segmentación médica de visión y lenguaje. Código: https://github.com/arya-domain/UA-VLS
English
We introduce a novel uncertainty-aware multimodal segmentation framework that leverages both radiological images and associated clinical text for precise medical diagnosis. We propose a Modality Decoding Attention Block (MoDAB) with a lightweight State Space Mixer (SSMix) to enable efficient cross-modal fusion and long-range dependency modelling. To guide learning under ambiguity, we propose the Spectral-Entropic Uncertainty (SEU) Loss, which jointly captures spatial overlap, spectral consistency, and predictive uncertainty in a unified objective. In complex clinical circumstances with poor image quality, this formulation improves model reliability. Extensive experiments on various publicly available medical datasets, QATA-COVID19, MosMed++, and Kvasir-SEG, demonstrate that our method achieves superior segmentation performance while being significantly more computationally efficient than existing State-of-the-Art (SoTA) approaches. Our results highlight the importance of incorporating uncertainty modelling and structured modality alignment in vision-language medical segmentation tasks. Code: https://github.com/arya-domain/UA-VLS