SAM2S: Segmentierung beliebiger Objekte in chirurgischen Videos mittels semantischer Langzeitverfolgung
SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking
November 20, 2025
papers.authors: Haofeng Liu, Ziyue Wang, Sudhanshu Mishra, Mingqi Gao, Guanyi Qin, Chang Han Low, Alex Y. W. Kong, Yueming Jin
cs.AI
papers.abstract
Die Segmentierung von chirurgischen Videos ist entscheidend für computerassistierte Operationen, da sie eine präzise Lokalisierung und Verfolgung von Instrumenten und Gewebe ermöglicht. Interaktive Videoobjektsegmentierungsmodelle (iVOS) wie Segment Anything Model 2 (SAM2) bieten eine promptbasierte Flexibilität, die über Methoden mit vordefinierten Kategorien hinausgeht, stehen jedoch in chirurgischen Szenarien vor Herausforderungen aufgrund der Domänenlücke und eingeschränkter Langzeitverfolgung. Um diese Einschränkungen zu adressieren, erstellen wir SA-SV, den größten chirurgischen iVOS-Benchmark mit instanzenbasierten raumzeitlichen Annotationen (Masklets), der acht Verfahrenstypen umfasst (61k Frames, 1.6k Masklets), und ermöglichen so eine umfassende Entwicklung und Evaluation für Langzeitverfolgung und Zero-Shot-Generalisierung. Aufbauend auf SA-SV schlagen wir SAM2S vor, ein Foundation-Modell, das SAM2 für chirurgische iVOS erweitert durch: (1) DiveMem, einen trainierbaren Mechanismus für diversen Speicher zur robusten Langzeitverfolgung; (2) temporales semantisches Lernen zum Verständnis von Instrumenten; und (3) ambiguitätsresistentes Lernen zur Minderung von Annotationinkonsistenzen in multiquelligen Datensätzen. Umfangreiche Experimente zeigen, dass Fine-Tuning auf SA-SV substantiale Leistungssteigerungen ermöglicht, wobei SAM2 im Durchschnitt um 12,99 J\&F gegenüber dem Standard-SAM2 verbessert wird. SAM2S steigert die Leistung weiter auf 80,42 durchschnittliches J\&F, übertrifft damit Standard- und fine-getunetes SAM2 um 17,10 bzw. 4,11 Punkte, bei gleichzeitiger Aufrechterhaltung von Echtzeit-Inferenz mit 68 FPS und starker Zero-Shot-Generalisierung. Code und Datensatz werden unter https://jinlab-imvr.github.io/SAM2S veröffentlicht.
English
Surgical video segmentation is crucial for computer-assisted surgery, enabling precise localization and tracking of instruments and tissues. Interactive Video Object Segmentation (iVOS) models such as Segment Anything Model 2 (SAM2) provide prompt-based flexibility beyond methods with predefined categories, but face challenges in surgical scenarios due to the domain gap and limited long-term tracking. To address these limitations, we construct SA-SV, the largest surgical iVOS benchmark with instance-level spatio-temporal annotations (masklets) spanning eight procedure types (61k frames, 1.6k masklets), enabling comprehensive development and evaluation for long-term tracking and zero-shot generalization. Building on SA-SV, we propose SAM2S, a foundation model enhancing SAM2 for Surgical iVOS through: (1) DiveMem, a trainable diverse memory mechanism for robust long-term tracking; (2) temporal semantic learning for instrument understanding; and (3) ambiguity-resilient learning to mitigate annotation inconsistencies across multi-source datasets. Extensive experiments demonstrate that fine-tuning on SA-SV enables substantial performance gains, with SAM2 improving by 12.99 average J\&F over vanilla SAM2. SAM2S further advances performance to 80.42 average J\&F, surpassing vanilla and fine-tuned SAM2 by 17.10 and 4.11 points respectively, while maintaining 68 FPS real-time inference and strong zero-shot generalization. Code and dataset will be released at https://jinlab-imvr.github.io/SAM2S.