CRISP-SAM2: SAM2 с кросс-модальным взаимодействием и семантическим подсказыванием для сегментации множества органов
CRISP-SAM2: SAM2 with Cross-Modal Interaction and Semantic Prompting for Multi-Organ Segmentation
June 29, 2025
Авторы: Xinlei Yu, Chanmiao Wang, Hui Jin, Ahmed Elazab, Gangyong Jia, Xiang Wan, Changqing Zou, Ruiquan Ge
cs.AI
Аннотация
Мультиорганная медицинская сегментация является важным компонентом обработки медицинских изображений, необходимым для точной диагностики и разработки эффективных планов лечения. Несмотря на значительный прогресс в этой области, современные модели мультиорганной сегментации часто страдают от неточности деталей, зависимости от геометрических подсказок и потери пространственной информации. Для решения этих проблем мы представляем новую модель под названием CRISP-SAM2, основанную на CRoss-modal Interaction и Semantic Prompting, базирующуюся на SAM2. Эта модель представляет собой перспективный подход к мультиорганной медицинской сегментации, управляемой текстовыми описаниями органов. Наш метод начинается с преобразования визуальных и текстовых входных данных в кросс-модальные контекстуализированные семантики с использованием прогрессивного механизма кросс-внимания. Эти семантики затем внедряются в кодировщик изображений для улучшения детального понимания визуальной информации. Чтобы устранить зависимость от геометрических подсказок, мы используем стратегию семантического подсказывания, заменяя исходный кодировщик подсказок для повышения восприятия сложных целей. Кроме того, применяется стратегия самообновления памяти с сортировкой по сходству и процесс уточнения масок для дальнейшей адаптации к медицинским изображениям и улучшения локальных деталей. Сравнительные эксперименты, проведенные на семи публичных наборах данных, показывают, что CRISP-SAM2 превосходит существующие модели. Обширный анализ также демонстрирует эффективность нашего метода, подтверждая его превосходную производительность, особенно в решении упомянутых ограничений. Наш код доступен по адресу: https://github.com/YU-deep/CRISP\_SAM2.git.
English
Multi-organ medical segmentation is a crucial component of medical image
processing, essential for doctors to make accurate diagnoses and develop
effective treatment plans. Despite significant progress in this field, current
multi-organ segmentation models often suffer from inaccurate details,
dependence on geometric prompts and loss of spatial information. Addressing
these challenges, we introduce a novel model named CRISP-SAM2 with CRoss-modal
Interaction and Semantic Prompting based on SAM2. This model represents a
promising approach to multi-organ medical segmentation guided by textual
descriptions of organs. Our method begins by converting visual and textual
inputs into cross-modal contextualized semantics using a progressive
cross-attention interaction mechanism. These semantics are then injected into
the image encoder to enhance the detailed understanding of visual information.
To eliminate reliance on geometric prompts, we use a semantic prompting
strategy, replacing the original prompt encoder to sharpen the perception of
challenging targets. In addition, a similarity-sorting self-updating strategy
for memory and a mask-refining process is applied to further adapt to medical
imaging and enhance localized details. Comparative experiments conducted on
seven public datasets indicate that CRISP-SAM2 outperforms existing models.
Extensive analysis also demonstrates the effectiveness of our method, thereby
confirming its superior performance, especially in addressing the limitations
mentioned earlier. Our code is available at:
https://github.com/YU-deep/CRISP\_SAM2.git.