CRISP-SAM2: SAM2 mit Cross-Modaler Interaktion und Semantischem Prompting für die Multi-Organ-Segmentierung
CRISP-SAM2: SAM2 with Cross-Modal Interaction and Semantic Prompting for Multi-Organ Segmentation
June 29, 2025
Autoren: Xinlei Yu, Chanmiao Wang, Hui Jin, Ahmed Elazab, Gangyong Jia, Xiang Wan, Changqing Zou, Ruiquan Ge
cs.AI
Zusammenfassung
Die Multi-Organ-Segmentierung ist ein entscheidender Bestandteil der medizinischen Bildverarbeitung und für Ärzte unerlässlich, um präzise Diagnosen zu stellen und effektive Behandlungspläne zu entwickeln. Trotz bedeutender Fortschritte in diesem Bereich leiden aktuelle Modelle zur Multi-Organ-Segmentierung oft unter ungenauen Details, Abhängigkeit von geometrischen Prompts und dem Verlust räumlicher Informationen. Um diese Herausforderungen zu bewältigen, stellen wir ein neuartiges Modell namens CRISP-SAM2 vor, das auf CRoss-modaler Interaktion und semantischem Prompting basiert und auf SAM2 aufbaut. Dieses Modell bietet einen vielversprechenden Ansatz zur Multi-Organ-Segmentierung, der durch textuelle Beschreibungen der Organe geleitet wird. Unsere Methode beginnt damit, visuelle und textuelle Eingaben mithilfe eines progressiven Cross-Attention-Interaktionsmechanismus in cross-modale kontextualisierte Semantik umzuwandeln. Diese Semantik wird dann in den Bildencoder injiziert, um das detaillierte Verständnis der visuellen Informationen zu verbessern. Um die Abhängigkeit von geometrischen Prompts zu beseitigen, verwenden wir eine semantische Prompting-Strategie, die den ursprünglichen Prompt-Encoder ersetzt, um die Wahrnehmung schwieriger Ziele zu schärfen. Zusätzlich wird eine Ähnlichkeits-Sortierungs- und Selbstaktualisierungsstrategie für den Speicher sowie ein Masken-Verfeinerungsprozess angewendet, um sich weiter an die medizinische Bildgebung anzupassen und lokalisierte Details zu verbessern. Vergleichende Experimente, die auf sieben öffentlichen Datensätzen durchgeführt wurden, zeigen, dass CRISP-SAM2 bestehende Modelle übertrifft. Umfangreiche Analysen demonstrieren zudem die Effektivität unserer Methode und bestätigen ihre überlegene Leistung, insbesondere bei der Bewältigung der zuvor genannten Einschränkungen. Unser Code ist verfügbar unter: https://github.com/YU-deep/CRISP\_SAM2.git.
English
Multi-organ medical segmentation is a crucial component of medical image
processing, essential for doctors to make accurate diagnoses and develop
effective treatment plans. Despite significant progress in this field, current
multi-organ segmentation models often suffer from inaccurate details,
dependence on geometric prompts and loss of spatial information. Addressing
these challenges, we introduce a novel model named CRISP-SAM2 with CRoss-modal
Interaction and Semantic Prompting based on SAM2. This model represents a
promising approach to multi-organ medical segmentation guided by textual
descriptions of organs. Our method begins by converting visual and textual
inputs into cross-modal contextualized semantics using a progressive
cross-attention interaction mechanism. These semantics are then injected into
the image encoder to enhance the detailed understanding of visual information.
To eliminate reliance on geometric prompts, we use a semantic prompting
strategy, replacing the original prompt encoder to sharpen the perception of
challenging targets. In addition, a similarity-sorting self-updating strategy
for memory and a mask-refining process is applied to further adapt to medical
imaging and enhance localized details. Comparative experiments conducted on
seven public datasets indicate that CRISP-SAM2 outperforms existing models.
Extensive analysis also demonstrates the effectiveness of our method, thereby
confirming its superior performance, especially in addressing the limitations
mentioned earlier. Our code is available at:
https://github.com/YU-deep/CRISP\_SAM2.git.