ChatPaper.aiChatPaper

CRISP-SAM2: SAM2 con Interacción Cross-Modal y Prompting Semántico para la Segmentación Multi-Órgano

CRISP-SAM2: SAM2 with Cross-Modal Interaction and Semantic Prompting for Multi-Organ Segmentation

June 29, 2025
Autores: Xinlei Yu, Chanmiao Wang, Hui Jin, Ahmed Elazab, Gangyong Jia, Xiang Wan, Changqing Zou, Ruiquan Ge
cs.AI

Resumen

La segmentación médica multiórgano es un componente crucial del procesamiento de imágenes médicas, esencial para que los médicos realicen diagnósticos precisos y desarrollen planes de tratamiento efectivos. A pesar de los avances significativos en este campo, los modelos actuales de segmentación multiórgano suelen presentar detalles inexactos, dependencia de indicaciones geométricas y pérdida de información espacial. Para abordar estos desafíos, presentamos un nuevo modelo denominado CRISP-SAM2, basado en la interacción cruzada multimodal y la indicación semántica a partir de SAM2. Este modelo representa un enfoque prometedor para la segmentación médica multiórgano guiada por descripciones textuales de los órganos. Nuestro método comienza convirtiendo las entradas visuales y textuales en semánticas contextualizadas multimodales mediante un mecanismo de interacción de atención cruzada progresiva. Estas semánticas se inyectan luego en el codificador de imágenes para mejorar la comprensión detallada de la información visual. Para eliminar la dependencia de indicaciones geométricas, utilizamos una estrategia de indicación semántica, reemplazando el codificador de indicaciones original para agudizar la percepción de objetivos desafiantes. Además, se aplica una estrategia de autoevaluación y actualización de memoria basada en similitudes, junto con un proceso de refinamiento de máscaras, para adaptarse mejor a las imágenes médicas y mejorar los detalles localizados. Los experimentos comparativos realizados en siete conjuntos de datos públicos indican que CRISP-SAM2 supera a los modelos existentes. Un análisis extenso también demuestra la efectividad de nuestro método, confirmando así su rendimiento superior, especialmente en la resolución de las limitaciones mencionadas anteriormente. Nuestro código está disponible en: https://github.com/YU-deep/CRISP\_SAM2.git.
English
Multi-organ medical segmentation is a crucial component of medical image processing, essential for doctors to make accurate diagnoses and develop effective treatment plans. Despite significant progress in this field, current multi-organ segmentation models often suffer from inaccurate details, dependence on geometric prompts and loss of spatial information. Addressing these challenges, we introduce a novel model named CRISP-SAM2 with CRoss-modal Interaction and Semantic Prompting based on SAM2. This model represents a promising approach to multi-organ medical segmentation guided by textual descriptions of organs. Our method begins by converting visual and textual inputs into cross-modal contextualized semantics using a progressive cross-attention interaction mechanism. These semantics are then injected into the image encoder to enhance the detailed understanding of visual information. To eliminate reliance on geometric prompts, we use a semantic prompting strategy, replacing the original prompt encoder to sharpen the perception of challenging targets. In addition, a similarity-sorting self-updating strategy for memory and a mask-refining process is applied to further adapt to medical imaging and enhance localized details. Comparative experiments conducted on seven public datasets indicate that CRISP-SAM2 outperforms existing models. Extensive analysis also demonstrates the effectiveness of our method, thereby confirming its superior performance, especially in addressing the limitations mentioned earlier. Our code is available at: https://github.com/YU-deep/CRISP\_SAM2.git.
PDF21July 4, 2025