ChatPaper.aiChatPaper

SAM2S: Segmentatie van Alles in Chirurgische Video's via Semantische Lange-Termijn Tracking

SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking

November 20, 2025
Auteurs: Haofeng Liu, Ziyue Wang, Sudhanshu Mishra, Mingqi Gao, Guanyi Qin, Chang Han Low, Alex Y. W. Kong, Yueming Jin
cs.AI

Samenvatting

Segmentatie van chirurgische video's is cruciaal voor computerondersteunde chirurgie, omdat het een precieze lokalisatie en tracking van instrumenten en weefsels mogelijk maakt. Interactieve Video Object Segmentatie (iVOS) modellen zoals Segment Anything Model 2 (SAM2) bieden prompt-gebaseerde flexibiliteit die verder gaat dan methoden met vooraf gedefinieerde categorieën, maar worden in chirurgische scenario's geconfronteerd met uitdagingen door de domeinkloof en beperkte lange-termijntracking. Om deze beperkingen aan te pakken, construeren we SA-SV, de grootste chirurgische iVOS-benchmark met instantie-niveau spatio-temporele annotaties (masklets) die acht proceduretypen omspant (61k frames, 1.6k masklets), waardoor een uitgebreide ontwikkeling en evaluatie voor lange-termijntracking en zero-shot generalisatie mogelijk wordt. Voortbouwend op SA-SV, stellen we SAM2S voor, een foundation-model dat SAM2 verbetert voor Chirurgische iVOS door: (1) DiveMem, een trainbaar divers geheugenmechanisme voor robuuste lange-termijntracking; (2) temporeel semantisch leren voor instrumentbegrip; en (3) ambiguïteit-resistent leren om annotatie-inconsistenties in multi-source datasets te verminderen. Uitgebreide experimenten tonen aan dat fine-tuning op SA-SV substantiële prestatieverbeteringen mogelijk maakt, waarbij SAM2 gemiddeld 12.99 J\&F wint ten opzichte van de standaard SAM2. SAM2S verbetert de prestaties verder tot een gemiddelde J\&F van 80.42, wat respectievelijk 17.10 en 4.11 punten hoger is dan de standaard en gefinetunede SAM2, terwijl het real-time inferentie van 68 FPS en sterke zero-shot generalisatie behoudt. Code en dataset zullen worden vrijgegeven op https://jinlab-imvr.github.io/SAM2S.
English
Surgical video segmentation is crucial for computer-assisted surgery, enabling precise localization and tracking of instruments and tissues. Interactive Video Object Segmentation (iVOS) models such as Segment Anything Model 2 (SAM2) provide prompt-based flexibility beyond methods with predefined categories, but face challenges in surgical scenarios due to the domain gap and limited long-term tracking. To address these limitations, we construct SA-SV, the largest surgical iVOS benchmark with instance-level spatio-temporal annotations (masklets) spanning eight procedure types (61k frames, 1.6k masklets), enabling comprehensive development and evaluation for long-term tracking and zero-shot generalization. Building on SA-SV, we propose SAM2S, a foundation model enhancing SAM2 for Surgical iVOS through: (1) DiveMem, a trainable diverse memory mechanism for robust long-term tracking; (2) temporal semantic learning for instrument understanding; and (3) ambiguity-resilient learning to mitigate annotation inconsistencies across multi-source datasets. Extensive experiments demonstrate that fine-tuning on SA-SV enables substantial performance gains, with SAM2 improving by 12.99 average J\&F over vanilla SAM2. SAM2S further advances performance to 80.42 average J\&F, surpassing vanilla and fine-tuned SAM2 by 17.10 and 4.11 points respectively, while maintaining 68 FPS real-time inference and strong zero-shot generalization. Code and dataset will be released at https://jinlab-imvr.github.io/SAM2S.
PDF72December 1, 2025