Surgical SAM 2: 効率的なフレームプルーニングによる手術動画のリアルタイムセグメンテーション
Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning
August 15, 2024
著者: Haofeng Liu, Erli Zhang, Junde Wu, Mingxuan Hong, Yueming Jin
cs.AI
要旨
手術映像のセグメンテーションは、コンピュータ支援手術における重要なタスクであり、手術の質と患者のアウトカムを向上させるために不可欠です。最近、Segment Anything Model 2(SAM2)フレームワークが、画像および映像セグメンテーションにおいて優れた進展を示しています。しかし、SAM2は高解像度画像の処理や手術映像における複雑で長期的な時間的ダイナミクスに対する高い計算要求のため、効率性に課題を抱えています。これらの課題に対処するため、我々はSurgical SAM 2(SurgSAM-2)を導入しました。これは、SAM2を効率的なフレームプルーニング(EFP)メカニズムと組み合わせた先進的なモデルであり、リアルタイムの手術映像セグメンテーションを実現します。EFPメカニズムは、最も情報量の多いフレームを選択的に保持することでメモリバンクを動的に管理し、メモリ使用量と計算コストを削減しながら高いセグメンテーション精度を維持します。我々の広範な実験により、SurgSAM-2が従来のSAM2と比較して効率性とセグメンテーション精度の両方を大幅に向上させることが実証されました。特に、SurgSAM-2はSAM2と比較して3倍のFPSを達成し、低解像度データでのファインチューニング後も最先端の性能を発揮します。これらの進展により、SurgSAM-2は手術映像分析における主要なモデルとして確立され、リソースが制限された環境でのリアルタイム手術映像セグメンテーションを現実的なものとしました。
English
Surgical video segmentation is a critical task in computer-assisted surgery
and is vital for enhancing surgical quality and patient outcomes. Recently, the
Segment Anything Model 2 (SAM2) framework has shown superior advancements in
image and video segmentation. However, SAM2 struggles with efficiency due to
the high computational demands of processing high-resolution images and complex
and long-range temporal dynamics in surgical videos. To address these
challenges, we introduce Surgical SAM 2 (SurgSAM-2), an advanced model to
utilize SAM2 with an Efficient Frame Pruning (EFP) mechanism, to facilitate
real-time surgical video segmentation. The EFP mechanism dynamically manages
the memory bank by selectively retaining only the most informative frames,
reducing memory usage and computational cost while maintaining high
segmentation accuracy. Our extensive experiments demonstrate that SurgSAM-2
significantly improves both efficiency and segmentation accuracy compared to
the vanilla SAM2. Remarkably, SurgSAM-2 achieves a 3times FPS compared with
SAM2, while also delivering state-of-the-art performance after fine-tuning with
lower-resolution data. These advancements establish SurgSAM-2 as a leading
model for surgical video analysis, making real-time surgical video segmentation
in resource-constrained environments a feasible reality.Summary
AI-Generated Summary