ChatPaper.aiChatPaper

SAM2S: Segmentazione di Oggetti in Video Chirurgici mediante Tracciamento Semantico a Lungo Termine

SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking

November 20, 2025
Autori: Haofeng Liu, Ziyue Wang, Sudhanshu Mishra, Mingqi Gao, Guanyi Qin, Chang Han Low, Alex Y. W. Kong, Yueming Jin
cs.AI

Abstract

La segmentazione di video chirurgici è cruciale per la chirurgia computer-assistita, poiché consente la localizzazione precisa e il tracciamento degli strumenti e dei tessuti. Modelli di Segmentazione Interattiva di Oggetti Video (iVOS) come Segment Anything Model 2 (SAM2) offrono una flessibilità basata su prompt che va oltre i metodi con categorie predefinite, ma affrontano sfide negli scenari chirurgici a causa del divario di dominio e della limitata capacità di tracciamento a lungo termine. Per affrontare queste limitazioni, abbiamo costruito SA-SV, il più grande benchmark chirurgico per iVOS con annotazioni spazio-temporali a livello di istanza (masklet) che coprono otto tipi di procedure (61k frame, 1.6k masklet), consentendo uno sviluppo e una valutazione completi per il tracciamento a lungo termine e la generalizzazione zero-shot. Basandoci su SA-SV, proponiamo SAM2S, un modello di base che potenzia SAM2 per l'iVOS Chirurgico attraverso: (1) DiveMem, un meccanismo di memoria diversificata addestrabile per un tracciamento a lungo termine robusto; (2) l'apprendimento semantico temporale per la comprensione degli strumenti; e (3) l'apprendimento resiliente all'ambiguità per mitigare le inconsistenze di annotazione tra dataset multi-sorgente. Esperimenti estensivi dimostrano che il fine-tuning su SA-SV consente miglioramenti prestazionali sostanziali, con SAM2 che migliora di 12.99 punti J\&F medi rispetto al SAM2 vanilla. SAM2S fa ulteriormente avanzare le prestazioni a 80.42 J\&F medi, superando rispettivamente SAM2 vanilla e fine-tunato di 17.10 e 4.11 punti, mantenendo al contempo un'inferenza in tempo reale a 68 FPS e una forte generalizzazione zero-shot. Il codice e il dataset saranno rilasciati su https://jinlab-imvr.github.io/SAM2S.
English
Surgical video segmentation is crucial for computer-assisted surgery, enabling precise localization and tracking of instruments and tissues. Interactive Video Object Segmentation (iVOS) models such as Segment Anything Model 2 (SAM2) provide prompt-based flexibility beyond methods with predefined categories, but face challenges in surgical scenarios due to the domain gap and limited long-term tracking. To address these limitations, we construct SA-SV, the largest surgical iVOS benchmark with instance-level spatio-temporal annotations (masklets) spanning eight procedure types (61k frames, 1.6k masklets), enabling comprehensive development and evaluation for long-term tracking and zero-shot generalization. Building on SA-SV, we propose SAM2S, a foundation model enhancing SAM2 for Surgical iVOS through: (1) DiveMem, a trainable diverse memory mechanism for robust long-term tracking; (2) temporal semantic learning for instrument understanding; and (3) ambiguity-resilient learning to mitigate annotation inconsistencies across multi-source datasets. Extensive experiments demonstrate that fine-tuning on SA-SV enables substantial performance gains, with SAM2 improving by 12.99 average J\&F over vanilla SAM2. SAM2S further advances performance to 80.42 average J\&F, surpassing vanilla and fine-tuned SAM2 by 17.10 and 4.11 points respectively, while maintaining 68 FPS real-time inference and strong zero-shot generalization. Code and dataset will be released at https://jinlab-imvr.github.io/SAM2S.
PDF72December 1, 2025