Segmentação de Imagens Médicas com Consciência da Incerteza em Visão Computacional e Linguagem
Uncertainty-Aware Vision-Language Segmentation for Medical Imaging
February 16, 2026
Autores: Aryan Das, Tanishq Rachamalla, Koushik Biswas, Swalpa Kumar Roy, Vinay Kumar Verma
cs.AI
Resumo
Apresentamos uma nova estrutura de segmentação multimodal consciente da incerteza que aproveita tanto imagens radiológicas quanto texto clínico associado para um diagnóstico médico preciso. Propomos um Bloco de Atenção de Decodificação de Modalidade (MoDAB) com um Misturador de Espaço de Estados leve (SSMix) para permitir uma fusão multimodal eficiente e modelagem de dependências de longo alcance. Para orientar a aprendizagem sob ambiguidade, propomos a Perda de Incerteza Espectral-Entrópica (SEU), que captura conjuntamente sobreposição espacial, consistência espectral e incerteza preditiva em um objetivo unificado. Em circunstâncias clínicas complexas com baixa qualidade de imagem, esta formulação melhora a confiabilidade do modelo. Experimentos extensivos em vários conjuntos de dados médicos publicamente disponíveis, QATA-COVID19, MosMed++ e Kvasir-SEG, demonstram que nosso método alcança desempenho de segmentação superior, sendo significativamente mais eficiente computacionalmente do que as abordagens State-of-the-Art (SoTA) existentes. Nossos resultados destacam a importância de incorporar a modelagem de incerteza e o alinhamento estruturado de modalidades em tarefas de segmentação médica de visão e linguagem. Código: https://github.com/arya-domain/UA-VLS
English
We introduce a novel uncertainty-aware multimodal segmentation framework that leverages both radiological images and associated clinical text for precise medical diagnosis. We propose a Modality Decoding Attention Block (MoDAB) with a lightweight State Space Mixer (SSMix) to enable efficient cross-modal fusion and long-range dependency modelling. To guide learning under ambiguity, we propose the Spectral-Entropic Uncertainty (SEU) Loss, which jointly captures spatial overlap, spectral consistency, and predictive uncertainty in a unified objective. In complex clinical circumstances with poor image quality, this formulation improves model reliability. Extensive experiments on various publicly available medical datasets, QATA-COVID19, MosMed++, and Kvasir-SEG, demonstrate that our method achieves superior segmentation performance while being significantly more computationally efficient than existing State-of-the-Art (SoTA) approaches. Our results highlight the importance of incorporating uncertainty modelling and structured modality alignment in vision-language medical segmentation tasks. Code: https://github.com/arya-domain/UA-VLS