ChatPaper.aiChatPaper

SAM2S : Segmentation de tout élément dans les vidéos chirurgicales via un suivi sémantique à long terme

SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking

November 20, 2025
papers.authors: Haofeng Liu, Ziyue Wang, Sudhanshu Mishra, Mingqi Gao, Guanyi Qin, Chang Han Low, Alex Y. W. Kong, Yueming Jin
cs.AI

papers.abstract

La segmentation vidéo chirurgicale est cruciale pour la chirurgie assistée par ordinateur, permettant une localisation et un suivi précis des instruments et des tissus. Les modèles de segmentation vidéo interactive (iVOS) tels que Segment Anything Model 2 (SAM2) offrent une flexibilité basée sur des invites au-delà des méthodes à catégories prédéfinies, mais rencontrent des difficultés dans les scénarios chirurgicaux en raison de l'écart de domaine et du suivi à long terme limité. Pour remédier à ces limitations, nous construisons SA-SV, le plus grand benchmark iVOS chirurgical avec des annotations spatio-temporelles au niveau de l'instance (masklets) couvrant huit types d'interventions (61k images, 1.6k masklets), permettant un développement et une évaluation complets pour le suivi à long terme et la généralisation zero-shot. Sur la base de SA-SV, nous proposons SAM2S, un modèle de base améliorant SAM2 pour l'iVOS chirurgical grâce à : (1) DiveMem, un mécanisme de mémoire diversifiable entraînable pour un suivi à long terme robuste ; (2) un apprentissage sémantique temporel pour la compréhension des instruments ; et (3) un apprentissage résilient à l'ambiguïté pour atténuer les incohérences d'annotation dans les ensembles de données multi-sources. Des expériences approfondies démontrent que le fine-tuning sur SA-SV permet des gains de performance substantiels, SAM2 s'améliorant de 12.99 points en J\&F moyen par rapport à SAM2 standard. SAM2S pousse plus loin les performances à 80.42 de J\&F moyen, surpassant SAM2 standard et fine-tuné de respectivement 17.10 et 4.11 points, tout en maintenant une inférence en temps réel à 68 FPS et une forte généralisation zero-shot. Le code et le jeu de données seront publiés sur https://jinlab-imvr.github.io/SAM2S.
English
Surgical video segmentation is crucial for computer-assisted surgery, enabling precise localization and tracking of instruments and tissues. Interactive Video Object Segmentation (iVOS) models such as Segment Anything Model 2 (SAM2) provide prompt-based flexibility beyond methods with predefined categories, but face challenges in surgical scenarios due to the domain gap and limited long-term tracking. To address these limitations, we construct SA-SV, the largest surgical iVOS benchmark with instance-level spatio-temporal annotations (masklets) spanning eight procedure types (61k frames, 1.6k masklets), enabling comprehensive development and evaluation for long-term tracking and zero-shot generalization. Building on SA-SV, we propose SAM2S, a foundation model enhancing SAM2 for Surgical iVOS through: (1) DiveMem, a trainable diverse memory mechanism for robust long-term tracking; (2) temporal semantic learning for instrument understanding; and (3) ambiguity-resilient learning to mitigate annotation inconsistencies across multi-source datasets. Extensive experiments demonstrate that fine-tuning on SA-SV enables substantial performance gains, with SAM2 improving by 12.99 average J\&F over vanilla SAM2. SAM2S further advances performance to 80.42 average J\&F, surpassing vanilla and fine-tuned SAM2 by 17.10 and 4.11 points respectively, while maintaining 68 FPS real-time inference and strong zero-shot generalization. Code and dataset will be released at https://jinlab-imvr.github.io/SAM2S.
PDF72December 1, 2025