ChatPaper.aiChatPaper

ReSurgSAM2: 신뢰할 수 있는 장기 추적을 통한 수술 영상 내 참조 대상 분할

ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking

May 13, 2025
저자: Haofeng Liu, Mingqi Gao, Xuxiao Luo, Ziyue Wang, Guanyi Qin, Junde Wu, Yueming Jin
cs.AI

초록

수술 장면 분할은 컴퓨터 보조 수술에서 매우 중요하며, 수술의 질과 환자 결과를 향상시키는 데 필수적입니다. 최근, 외과의에게 상호작용적인 경험을 제공하여 대상 물체를 분할할 수 있는 장점을 가진 참조 수술 분할이 주목받고 있습니다. 그러나 기존 방법들은 낮은 효율성과 단기 추적의 한계로 인해 복잡한 실제 수술 시나리오에서의 적용이 어려웠습니다. 본 논문에서는 Segment Anything Model 2를 활용하여 텍스트 참조 대상 탐지를 수행하고, 신뢰할 수 있는 초기 프레임 식별과 다양성 기반 장기 메모리를 통해 추적을 수행하는 2단계 수술 참조 분할 프레임워크인 ReSurgSAM2를 소개합니다. 탐지 단계에서는 정확한 탐지 및 분할 결과를 생성하기 위해 크로스 모달 시공간 맘바를 제안합니다. 이러한 결과를 바탕으로, 신뢰할 수 있는 초기 프레임 선택 전략은 이후 추적을 위한 신뢰할 수 있는 프레임을 식별합니다. 초기 프레임이 선택되면, 본 방법은 추적 단계로 전환되며, 신뢰할 수 있고 다양한 메모리 뱅크를 유지하는 다양성 기반 메모리 메커니즘을 통합하여 일관된 장기 추적을 보장합니다. 광범위한 실험을 통해 ReSurgSAM2가 기존 방법들에 비해 정확도와 효율성에서 상당한 개선을 이루며, 61.2 FPS의 실시간 작동이 가능함을 입증했습니다. 본 코드와 데이터셋은 https://github.com/jinlab-imvr/ReSurgSAM2에서 확인할 수 있습니다.
English
Surgical scene segmentation is critical in computer-assisted surgery and is vital for enhancing surgical quality and patient outcomes. Recently, referring surgical segmentation is emerging, given its advantage of providing surgeons with an interactive experience to segment the target object. However, existing methods are limited by low efficiency and short-term tracking, hindering their applicability in complex real-world surgical scenarios. In this paper, we introduce ReSurgSAM2, a two-stage surgical referring segmentation framework that leverages Segment Anything Model 2 to perform text-referred target detection, followed by tracking with reliable initial frame identification and diversity-driven long-term memory. For the detection stage, we propose a cross-modal spatial-temporal Mamba to generate precise detection and segmentation results. Based on these results, our credible initial frame selection strategy identifies the reliable frame for the subsequent tracking. Upon selecting the initial frame, our method transitions to the tracking stage, where it incorporates a diversity-driven memory mechanism that maintains a credible and diverse memory bank, ensuring consistent long-term tracking. Extensive experiments demonstrate that ReSurgSAM2 achieves substantial improvements in accuracy and efficiency compared to existing methods, operating in real-time at 61.2 FPS. Our code and datasets will be available at https://github.com/jinlab-imvr/ReSurgSAM2.

Summary

AI-Generated Summary

PDF72May 16, 2025