ChatPaper.aiChatPaper

SAM2S: 의미론적 장기 추적을 통한 수술 영상 내 모든 대상 분할

SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking

November 20, 2025
저자: Haofeng Liu, Ziyue Wang, Sudhanshu Mishra, Mingqi Gao, Guanyi Qin, Chang Han Low, Alex Y. W. Kong, Yueming Jin
cs.AI

초록

수술 영상 분할은 컴퓨터 보조 수술에서 핵심적인 역할을 하며, 수술 도구 및 조직의 정확한 위치 추적을 가능하게 합니다. Segment Anything Model 2 (SAM2)와 같은 대화형 비디오 객체 분할(iVOS) 모델은 사전 정의된 범주를 사용하는 기법을 넘어 프롬프트 기반의 유연성을 제공하지만, 도메인 차이와 제한된 장기 추적 능력으로 인해 수술 시나리오에서 어려움에 직면합니다. 이러한 한계를 해결하기 위해 우리는 8가지 수술 유형(61k 프레임, 1.6k 마스클릿)에 걸친 인스턴스 수준의 시공간 주석(마스클릿)으로 구성된 가장 큰 수술 iVOS 벤치마크인 SA-SV를 구축하여 장기 추적 및 제로샷 일반화를 위한 포괄적인 개발과 평가를 가능하게 했습니다. SA-SV를 기반으로 우리는 SAM2를 수술 iVOS에 맞게 향상시키는 기초 모델 SAM2S를 제안합니다: (1) 강력한 장기 추적을 위한 학습 가능한 다중 메모리 메커니즘인 DiveMem, (2) 수술 도구 이해를 위한 시간적 의미 학습, (3) 다중 출처 데이터셋 간 주석 불일치를 완화하는 모호성 회복 학습을 통해 개선했습니다. 폭넓은 실험을 통해 SA-SV로 미세 조정을 수행하면 성능이 크게 향상되며, SAM2는 기본 대비 평균 J&F 12.99점이 상승함을 확인했습니다. SAM2S는 평균 J&F 80.42점으로 성능을 더욱 향상시켜 기본 SAM2 및 미세 조정된 SAM2를 각각 17.10점, 4.11점 앞섰으며, 68 FPS의 실시간 추론 속도와 강력한 제로샷 일반화 능력을 유지했습니다. 코드와 데이터셋은 https://jinlab-imvr.github.io/SAM2S에서 공개될 예정입니다.
English
Surgical video segmentation is crucial for computer-assisted surgery, enabling precise localization and tracking of instruments and tissues. Interactive Video Object Segmentation (iVOS) models such as Segment Anything Model 2 (SAM2) provide prompt-based flexibility beyond methods with predefined categories, but face challenges in surgical scenarios due to the domain gap and limited long-term tracking. To address these limitations, we construct SA-SV, the largest surgical iVOS benchmark with instance-level spatio-temporal annotations (masklets) spanning eight procedure types (61k frames, 1.6k masklets), enabling comprehensive development and evaluation for long-term tracking and zero-shot generalization. Building on SA-SV, we propose SAM2S, a foundation model enhancing SAM2 for Surgical iVOS through: (1) DiveMem, a trainable diverse memory mechanism for robust long-term tracking; (2) temporal semantic learning for instrument understanding; and (3) ambiguity-resilient learning to mitigate annotation inconsistencies across multi-source datasets. Extensive experiments demonstrate that fine-tuning on SA-SV enables substantial performance gains, with SAM2 improving by 12.99 average J\&F over vanilla SAM2. SAM2S further advances performance to 80.42 average J\&F, surpassing vanilla and fine-tuned SAM2 by 17.10 and 4.11 points respectively, while maintaining 68 FPS real-time inference and strong zero-shot generalization. Code and dataset will be released at https://jinlab-imvr.github.io/SAM2S.
PDF72December 1, 2025