Segmentation Vision-Langage Consciente de l'Incertitude pour l'Imagerie Médicale

Résumé

Nous présentons un nouveau cadre de segmentation multimodale sensible à l'incertitude qui exploite à la fois les images radiologiques et les textes cliniques associés pour un diagnostic médical précis. Nous proposons un bloc d'attention de décodage modal (MoDAB) avec un mélangeur d'état léger (SSMix) pour permettre une fusion intermodale efficace et une modélisation des dépendances à longue portée. Pour guider l'apprentissage en cas d'ambiguïté, nous proposons la fonction de perte d'incertitude spectral-entropique (SEU) qui capture conjointement le chevauchement spatial, la cohérence spectrale et l'incertitude prédictive dans un objectif unifié. Dans des contextes cliniques complexes avec une mauvaise qualité d'image, cette formulation améliore la fiabilité du modèle. Des expériences approfondies sur divers ensembles de données médicales publiquement disponibles, QATA-COVID19, MosMed++ et Kvasir-SEG, démontrent que notre méthode atteint des performances de segmentation supérieures tout en étant nettement plus efficace sur le plan computationnel que les approches état de l'art (SoTA) existantes. Nos résultats soulignent l'importance d'intégrer la modélisation de l'incertitude et l'alignement modal structuré dans les tâches de segmentation médicale vision-langage. Code : https://github.com/arya-domain/UA-VLS

English

We introduce a novel uncertainty-aware multimodal segmentation framework that leverages both radiological images and associated clinical text for precise medical diagnosis. We propose a Modality Decoding Attention Block (MoDAB) with a lightweight State Space Mixer (SSMix) to enable efficient cross-modal fusion and long-range dependency modelling. To guide learning under ambiguity, we propose the Spectral-Entropic Uncertainty (SEU) Loss, which jointly captures spatial overlap, spectral consistency, and predictive uncertainty in a unified objective. In complex clinical circumstances with poor image quality, this formulation improves model reliability. Extensive experiments on various publicly available medical datasets, QATA-COVID19, MosMed++, and Kvasir-SEG, demonstrate that our method achieves superior segmentation performance while being significantly more computationally efficient than existing State-of-the-Art (SoTA) approaches. Our results highlight the importance of incorporating uncertainty modelling and structured modality alignment in vision-language medical segmentation tasks. Code: https://github.com/arya-domain/UA-VLS

Segmentation Vision-Langage Consciente de l'Incertitude pour l'Imagerie Médicale

Uncertainty-Aware Vision-Language Segmentation for Medical Imaging

Résumé

Support