CRISP-SAM2: SAM2 met Cross-Modale Interactie en Semantische Prompting voor Multi-Orgaan Segmentatie
CRISP-SAM2: SAM2 with Cross-Modal Interaction and Semantic Prompting for Multi-Organ Segmentation
June 29, 2025
Auteurs: Xinlei Yu, Chanmiao Wang, Hui Jin, Ahmed Elazab, Gangyong Jia, Xiang Wan, Changqing Zou, Ruiquan Ge
cs.AI
Samenvatting
Multi-organ medische segmentatie is een cruciaal onderdeel van medische beeldverwerking, essentieel voor artsen om nauwkeurige diagnoses te stellen en effectieve behandelplannen te ontwikkelen. Ondanks aanzienlijke vooruitgang in dit veld, lijden huidige multi-organ segmentatiemodellen vaak onder onnauwkeurige details, afhankelijkheid van geometrische prompts en verlies van ruimtelijke informatie. Om deze uitdagingen aan te pakken, introduceren we een nieuw model genaamd CRISP-SAM2 met CRoss-modale Interactie en Semantische Prompting gebaseerd op SAM2. Dit model vertegenwoordigt een veelbelovende aanpak voor multi-organ medische segmentatie geleid door tekstuele beschrijvingen van organen. Onze methode begint met het omzetten van visuele en tekstuele inputs in cross-modale gecontextualiseerde semantiek met behulp van een progressief cross-attention interactiemechanisme. Deze semantiek wordt vervolgens geïnjecteerd in de beeldencoder om het gedetailleerde begrip van visuele informatie te verbeteren. Om de afhankelijkheid van geometrische prompts te elimineren, gebruiken we een semantische prompting strategie, waarbij de originele prompt encoder wordt vervangen om de perceptie van uitdagende doelen te verscherpen. Daarnaast wordt een gelijkenis-sorterende zelf-uppdaterende strategie voor geheugen en een masker-verfijningsproces toegepast om verder aan te passen aan medische beeldvorming en gelokaliseerde details te verbeteren. Vergelijkende experimenten uitgevoerd op zeven publieke datasets geven aan dat CRISP-SAM2 bestaande modellen overtreft. Uitgebreide analyse toont ook de effectiviteit van onze methode aan, waardoor de superieure prestaties worden bevestigd, vooral in het aanpakken van de eerder genoemde beperkingen. Onze code is beschikbaar op: https://github.com/YU-deep/CRISP\_SAM2.git.
English
Multi-organ medical segmentation is a crucial component of medical image
processing, essential for doctors to make accurate diagnoses and develop
effective treatment plans. Despite significant progress in this field, current
multi-organ segmentation models often suffer from inaccurate details,
dependence on geometric prompts and loss of spatial information. Addressing
these challenges, we introduce a novel model named CRISP-SAM2 with CRoss-modal
Interaction and Semantic Prompting based on SAM2. This model represents a
promising approach to multi-organ medical segmentation guided by textual
descriptions of organs. Our method begins by converting visual and textual
inputs into cross-modal contextualized semantics using a progressive
cross-attention interaction mechanism. These semantics are then injected into
the image encoder to enhance the detailed understanding of visual information.
To eliminate reliance on geometric prompts, we use a semantic prompting
strategy, replacing the original prompt encoder to sharpen the perception of
challenging targets. In addition, a similarity-sorting self-updating strategy
for memory and a mask-refining process is applied to further adapt to medical
imaging and enhance localized details. Comparative experiments conducted on
seven public datasets indicate that CRISP-SAM2 outperforms existing models.
Extensive analysis also demonstrates the effectiveness of our method, thereby
confirming its superior performance, especially in addressing the limitations
mentioned earlier. Our code is available at:
https://github.com/YU-deep/CRISP\_SAM2.git.