Неопределенность-осведомленная сегментация на основе зрения и языка в медицинской визуализации

Аннотация

Мы представляем новую систему многомодальной сегментации с учетом неопределенности, которая использует как радиологические изображения, так и связанные с ними клинические тексты для точной медицинской диагностики. Мы предлагаем блок модального декодирующего внимания (Modality Decoding Attention Block, MoDAB) с легковесным микшером пространства состояний (State Space Mixer, SSMix) для обеспечения эффективного кросс-модального взаимодействия и моделирования дальнодействующих зависимостей. Для управления обучением в условиях неоднозначности мы предлагаем спектрально-энтропийную функцию потерь неопределенности (Spectral-Entropic Uncertainty, SEU Loss), которая объединяет в единую цель оценку пространственного перекрытия, спектральной согласованности и прогностической неопределенности. В сложных клинических сценариях с низким качеством изображений такой подход повышает надежность модели. Обширные эксперименты на различных общедоступных медицинских наборах данных — QATA-COVID19, MosMed++ и Kvasir-SEG — демонстрируют, что наш метод достигает превосходной производительности сегментации, оставаясь при этом значительно более вычислительно эффективным по сравнению с существующими передовыми (State-of-the-Art, SoTA) подходами. Наши результаты подчеркивают важность включения моделирования неопределенности и структурированного согласования модальностей в задачи визуально-языковой медицинской сегментации. Код: https://github.com/arya-domain/UA-VLS

English

We introduce a novel uncertainty-aware multimodal segmentation framework that leverages both radiological images and associated clinical text for precise medical diagnosis. We propose a Modality Decoding Attention Block (MoDAB) with a lightweight State Space Mixer (SSMix) to enable efficient cross-modal fusion and long-range dependency modelling. To guide learning under ambiguity, we propose the Spectral-Entropic Uncertainty (SEU) Loss, which jointly captures spatial overlap, spectral consistency, and predictive uncertainty in a unified objective. In complex clinical circumstances with poor image quality, this formulation improves model reliability. Extensive experiments on various publicly available medical datasets, QATA-COVID19, MosMed++, and Kvasir-SEG, demonstrate that our method achieves superior segmentation performance while being significantly more computationally efficient than existing State-of-the-Art (SoTA) approaches. Our results highlight the importance of incorporating uncertainty modelling and structured modality alignment in vision-language medical segmentation tasks. Code: https://github.com/arya-domain/UA-VLS

Неопределенность-осведомленная сегментация на основе зрения и языка в медицинской визуализации

Uncertainty-Aware Vision-Language Segmentation for Medical Imaging

Аннотация

Support