ChatPaper.aiChatPaper

CRISP-SAM2: SAM2 con Interazione Cross-Modale e Prompting Semantico per la Segmentazione Multi-Organo

CRISP-SAM2: SAM2 with Cross-Modal Interaction and Semantic Prompting for Multi-Organ Segmentation

June 29, 2025
Autori: Xinlei Yu, Chanmiao Wang, Hui Jin, Ahmed Elazab, Gangyong Jia, Xiang Wan, Changqing Zou, Ruiquan Ge
cs.AI

Abstract

La segmentazione multi-organo è un componente cruciale dell'elaborazione delle immagini mediche, essenziale affinché i medici possano formulare diagnosi accurate e sviluppare piani di trattamento efficaci. Nonostante i significativi progressi in questo campo, gli attuali modelli di segmentazione multi-organo spesso presentano dettagli imprecisi, dipendenza da prompt geometrici e perdita di informazioni spaziali. Per affrontare queste sfide, introduciamo un nuovo modello denominato CRISP-SAM2, basato su CRoss-modal Interaction e Semantic Prompting, costruito su SAM2. Questo modello rappresenta un approccio promettente per la segmentazione medica multi-organo guidata da descrizioni testuali degli organi. Il nostro metodo inizia convertendo gli input visivi e testuali in semantiche contestualizzate cross-modali utilizzando un meccanismo di interazione progressiva a cross-attention. Queste semantiche vengono poi iniettate nell'encoder di immagini per migliorare la comprensione dettagliata delle informazioni visive. Per eliminare la dipendenza dai prompt geometrici, utilizziamo una strategia di prompting semantico, sostituendo l'encoder di prompt originale per affinare la percezione di target complessi. Inoltre, viene applicata una strategia di auto-aggiornamento con ordinamento per similarità per la memoria e un processo di raffinamento delle maschere per adattarsi ulteriormente alle immagini mediche e migliorare i dettagli localizzati. Esperimenti comparativi condotti su sette dataset pubblici indicano che CRISP-SAM2 supera i modelli esistenti. Un'analisi estensiva dimostra inoltre l'efficacia del nostro metodo, confermandone le prestazioni superiori, specialmente nel risolvere le limitazioni menzionate in precedenza. Il nostro codice è disponibile all'indirizzo: https://github.com/YU-deep/CRISP\_SAM2.git.
English
Multi-organ medical segmentation is a crucial component of medical image processing, essential for doctors to make accurate diagnoses and develop effective treatment plans. Despite significant progress in this field, current multi-organ segmentation models often suffer from inaccurate details, dependence on geometric prompts and loss of spatial information. Addressing these challenges, we introduce a novel model named CRISP-SAM2 with CRoss-modal Interaction and Semantic Prompting based on SAM2. This model represents a promising approach to multi-organ medical segmentation guided by textual descriptions of organs. Our method begins by converting visual and textual inputs into cross-modal contextualized semantics using a progressive cross-attention interaction mechanism. These semantics are then injected into the image encoder to enhance the detailed understanding of visual information. To eliminate reliance on geometric prompts, we use a semantic prompting strategy, replacing the original prompt encoder to sharpen the perception of challenging targets. In addition, a similarity-sorting self-updating strategy for memory and a mask-refining process is applied to further adapt to medical imaging and enhance localized details. Comparative experiments conducted on seven public datasets indicate that CRISP-SAM2 outperforms existing models. Extensive analysis also demonstrates the effectiveness of our method, thereby confirming its superior performance, especially in addressing the limitations mentioned earlier. Our code is available at: https://github.com/YU-deep/CRISP\_SAM2.git.
PDF21July 4, 2025