CRISP-SAM2 : SAM2 avec interaction intermodale et incitation sémantique pour la segmentation multi-organes
CRISP-SAM2: SAM2 with Cross-Modal Interaction and Semantic Prompting for Multi-Organ Segmentation
June 29, 2025
Auteurs: Xinlei Yu, Chanmiao Wang, Hui Jin, Ahmed Elazab, Gangyong Jia, Xiang Wan, Changqing Zou, Ruiquan Ge
cs.AI
Résumé
La segmentation médicale multi-organes est une composante cruciale du traitement des images médicales, essentielle pour permettre aux médecins d'établir des diagnostics précis et de concevoir des plans de traitement efficaces. Malgré des progrès significatifs dans ce domaine, les modèles actuels de segmentation multi-organes souffrent souvent de détails imprécis, d'une dépendance aux indications géométriques et d'une perte d'informations spatiales. Pour relever ces défis, nous introduisons un nouveau modèle nommé CRISP-SAM2, basé sur une interaction intermodale et une incitation sémantique fondées sur SAM2. Ce modèle représente une approche prometteuse pour la segmentation médicale multi-organes guidée par des descriptions textuelles des organes. Notre méthode commence par convertir les entrées visuelles et textuelles en sémantiques contextualisées intermodales à l'aide d'un mécanisme d'interaction progressive par attention croisée. Ces sémantiques sont ensuite injectées dans l'encodeur d'images pour améliorer la compréhension détaillée des informations visuelles. Pour éliminer la dépendance aux indications géométriques, nous utilisons une stratégie d'incitation sémantique, remplaçant l'encodeur d'indications original pour affiner la perception des cibles complexes. De plus, une stratégie d'auto-mise à jour par tri de similarité pour la mémoire et un processus de raffinement des masques sont appliqués pour mieux s'adapter à l'imagerie médicale et améliorer les détails localisés. Des expériences comparatives menées sur sept ensembles de données publics indiquent que CRISP-SAM2 surpasse les modèles existants. Une analyse approfondie démontre également l'efficacité de notre méthode, confirmant ainsi ses performances supérieures, en particulier pour résoudre les limitations mentionnées précédemment. Notre code est disponible à l'adresse suivante : https://github.com/YU-deep/CRISP\_SAM2.git.
English
Multi-organ medical segmentation is a crucial component of medical image
processing, essential for doctors to make accurate diagnoses and develop
effective treatment plans. Despite significant progress in this field, current
multi-organ segmentation models often suffer from inaccurate details,
dependence on geometric prompts and loss of spatial information. Addressing
these challenges, we introduce a novel model named CRISP-SAM2 with CRoss-modal
Interaction and Semantic Prompting based on SAM2. This model represents a
promising approach to multi-organ medical segmentation guided by textual
descriptions of organs. Our method begins by converting visual and textual
inputs into cross-modal contextualized semantics using a progressive
cross-attention interaction mechanism. These semantics are then injected into
the image encoder to enhance the detailed understanding of visual information.
To eliminate reliance on geometric prompts, we use a semantic prompting
strategy, replacing the original prompt encoder to sharpen the perception of
challenging targets. In addition, a similarity-sorting self-updating strategy
for memory and a mask-refining process is applied to further adapt to medical
imaging and enhance localized details. Comparative experiments conducted on
seven public datasets indicate that CRISP-SAM2 outperforms existing models.
Extensive analysis also demonstrates the effectiveness of our method, thereby
confirming its superior performance, especially in addressing the limitations
mentioned earlier. Our code is available at:
https://github.com/YU-deep/CRISP\_SAM2.git.