ChatPaper.aiChatPaper

SAM2S: セマンティック長期トラッキングによる手術動画内任意領域分割

SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking

November 20, 2025
著者: Haofeng Liu, Ziyue Wang, Sudhanshu Mishra, Mingqi Gao, Guanyi Qin, Chang Han Low, Alex Y. W. Kong, Yueming Jin
cs.AI

要旨

手術動画セグメンテーションは、コンピュータ支援手術において器具や組織の精密な位置特定と追跡を可能にする重要な技術である。Segment Anything Model 2 (SAM2) のような対話的動画オブジェクトセグメンテーション (iVOS) モデルは、事前定義されたカテゴリに依存しないプロンプトベースの柔軟性を提供するが、ドメインギャップと長期的追跡の難しさから手術場景では課題に直面する。これらの制限を解決するため、我々は8種類の手術手技にわたるインスタンスレベルの時空間アノテーション(マスクレット)を備えた最大規模の手術用iVOSベンチマークSA-SV(61kフレーム、1.6kマスクレット)を構築し、長期的追跡とゼロショット一般化の包括的開発・評価を可能にした。SA-SVに基づき、我々はSAM2を手術用iVOS向けに強化する基盤モデルSAM2Sを提案する:(1)頑健な長期的追跡のための学習可能な多様性メモリ機構DiveMem、(2)器具理解のための時間的意味学習、(3)マルチソースデータセット間のアノテーション不一致を軽減する曖昧性耐性学習。大規模実験により、SA-SVでのファインチューニングが性能向上に有効であり、SAM2がベースライン比12.99平均J&F向上することを実証した。SAM2Sは平均J&Fを80.42まで高め、ベースラインSAM2およびファインチューニング版SAM2をそれぞれ17.10ポイント、4.11ポイント上回り、68 FPSのリアルタイム推論と強力なゼロショット一般化性能を維持した。コードとデータセットはhttps://jinlab-imvr.github.io/SAM2Sで公開予定である。
English
Surgical video segmentation is crucial for computer-assisted surgery, enabling precise localization and tracking of instruments and tissues. Interactive Video Object Segmentation (iVOS) models such as Segment Anything Model 2 (SAM2) provide prompt-based flexibility beyond methods with predefined categories, but face challenges in surgical scenarios due to the domain gap and limited long-term tracking. To address these limitations, we construct SA-SV, the largest surgical iVOS benchmark with instance-level spatio-temporal annotations (masklets) spanning eight procedure types (61k frames, 1.6k masklets), enabling comprehensive development and evaluation for long-term tracking and zero-shot generalization. Building on SA-SV, we propose SAM2S, a foundation model enhancing SAM2 for Surgical iVOS through: (1) DiveMem, a trainable diverse memory mechanism for robust long-term tracking; (2) temporal semantic learning for instrument understanding; and (3) ambiguity-resilient learning to mitigate annotation inconsistencies across multi-source datasets. Extensive experiments demonstrate that fine-tuning on SA-SV enables substantial performance gains, with SAM2 improving by 12.99 average J\&F over vanilla SAM2. SAM2S further advances performance to 80.42 average J\&F, surpassing vanilla and fine-tuned SAM2 by 17.10 and 4.11 points respectively, while maintaining 68 FPS real-time inference and strong zero-shot generalization. Code and dataset will be released at https://jinlab-imvr.github.io/SAM2S.
PDF72December 1, 2025