CRISP-SAM2: 다중 장기 분할을 위한 교차 모달 상호작용 및 의미론적 프롬프팅을 갖춘 SAM2
CRISP-SAM2: SAM2 with Cross-Modal Interaction and Semantic Prompting for Multi-Organ Segmentation
June 29, 2025
저자: Xinlei Yu, Chanmiao Wang, Hui Jin, Ahmed Elazab, Gangyong Jia, Xiang Wan, Changqing Zou, Ruiquan Ge
cs.AI
초록
다중 장기 의료 영상 분할은 의료 영상 처리의 핵심 요소로, 의사들이 정확한 진단을 내리고 효과적인 치료 계획을 수립하는 데 필수적입니다. 이 분야에서 상당한 진전이 있었음에도 불구하고, 현재의 다중 장기 분할 모델들은 종종 부정확한 세부 정보, 기하학적 프롬프트에 대한 의존성, 그리고 공간 정보의 손실과 같은 문제를 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 SAM2 기반의 교차 모달 상호작용과 의미론적 프롬프팅을 기반으로 한 CRISP-SAM2라는 새로운 모델을 소개합니다. 이 모델은 장기에 대한 텍스트 설명에 기반한 다중 장기 의료 영상 분할에 유망한 접근법을 제시합니다. 우리의 방법은 먼저 시각적 및 텍스트 입력을 점진적인 교차 주의 상호작용 메커니즘을 사용하여 교차 모달 문맥적 의미로 변환합니다. 이러한 의미는 이미지 인코더에 주입되어 시각적 정보에 대한 세부 이해를 강화합니다. 기하학적 프롬프트에 대한 의존성을 없애기 위해, 우리는 의미론적 프롬프팅 전략을 사용하여 원래의 프롬프트 인코더를 대체하고 어려운 대상에 대한 인식을 선명하게 합니다. 또한, 메모리를 위한 유사성 정렬 자체 업데이트 전략과 마스크 정제 과정을 적용하여 의료 영상에 더 잘 적응하고 지역적 세부 사항을 강화합니다. 7개의 공개 데이터셋에서 수행된 비교 실험은 CRISP-SAM2가 기존 모델들을 능가함을 보여줍니다. 광범위한 분석 또한 우리의 방법의 효과를 입증하며, 특히 앞서 언급된 한계를 해결하는 데 있어서 우수한 성능을 확인합니다. 우리의 코드는 https://github.com/YU-deep/CRISP\_SAM2.git에서 확인할 수 있습니다.
English
Multi-organ medical segmentation is a crucial component of medical image
processing, essential for doctors to make accurate diagnoses and develop
effective treatment plans. Despite significant progress in this field, current
multi-organ segmentation models often suffer from inaccurate details,
dependence on geometric prompts and loss of spatial information. Addressing
these challenges, we introduce a novel model named CRISP-SAM2 with CRoss-modal
Interaction and Semantic Prompting based on SAM2. This model represents a
promising approach to multi-organ medical segmentation guided by textual
descriptions of organs. Our method begins by converting visual and textual
inputs into cross-modal contextualized semantics using a progressive
cross-attention interaction mechanism. These semantics are then injected into
the image encoder to enhance the detailed understanding of visual information.
To eliminate reliance on geometric prompts, we use a semantic prompting
strategy, replacing the original prompt encoder to sharpen the perception of
challenging targets. In addition, a similarity-sorting self-updating strategy
for memory and a mask-refining process is applied to further adapt to medical
imaging and enhance localized details. Comparative experiments conducted on
seven public datasets indicate that CRISP-SAM2 outperforms existing models.
Extensive analysis also demonstrates the effectiveness of our method, thereby
confirming its superior performance, especially in addressing the limitations
mentioned earlier. Our code is available at:
https://github.com/YU-deep/CRISP\_SAM2.git.