Segmentazione Visione-Linguaggio Consapevole dell'Incertezza per l'Imaging Medico

Abstract

Introduciamo un innovativo framework di segmentazione multimodale consapevole dell'incertezza che utilizza sia immagini radiologiche che il testo clinico associato per una diagnosi medica precisa. Proponiamo un Modality Decoding Attention Block (MoDAB) con un leggero State Space Mixer (SSMix) per abilitare una fusione cross-modale efficiente e la modellazione di dipendenze a lungo raggio. Per guidare l'apprendimento in condizioni di ambiguità, proponiamo la Spectral-Entropic Uncertainty (SEU) Loss, che cattura congiuntamente la sovrapposizione spaziale, la consistenza spettrale e l'incertezza predittiva in un obiettivo unificato. In circostanze cliniche complesse con scarsa qualità dell'immagine, questa formulazione migliora l'affidabilità del modello. Esperimenti estesi su vari dataset medici pubblicamente disponibili, QATA-COVID19, MosMed++ e Kvasir-SEG, dimostrano che il nostro metodo raggiunge prestazioni di segmentazione superiori risultando al contempo significativamente più efficiente dal punto di vista computazionale rispetto agli approcci State-of-the-Art (SoTA) esistenti. I nostri risultati evidenziano l'importanza di incorporare la modellazione dell'incertezza e l'allineamento strutturato delle modalità nei task di segmentazione medica visione-linguaggio. Codice: https://github.com/arya-domain/UA-VLS

English

We introduce a novel uncertainty-aware multimodal segmentation framework that leverages both radiological images and associated clinical text for precise medical diagnosis. We propose a Modality Decoding Attention Block (MoDAB) with a lightweight State Space Mixer (SSMix) to enable efficient cross-modal fusion and long-range dependency modelling. To guide learning under ambiguity, we propose the Spectral-Entropic Uncertainty (SEU) Loss, which jointly captures spatial overlap, spectral consistency, and predictive uncertainty in a unified objective. In complex clinical circumstances with poor image quality, this formulation improves model reliability. Extensive experiments on various publicly available medical datasets, QATA-COVID19, MosMed++, and Kvasir-SEG, demonstrate that our method achieves superior segmentation performance while being significantly more computationally efficient than existing State-of-the-Art (SoTA) approaches. Our results highlight the importance of incorporating uncertainty modelling and structured modality alignment in vision-language medical segmentation tasks. Code: https://github.com/arya-domain/UA-VLS

Segmentazione Visione-Linguaggio Consapevole dell'Incertezza per l'Imaging Medico

Uncertainty-Aware Vision-Language Segmentation for Medical Imaging

Abstract

Support