ChatPaper.aiChatPaper

Surgical SAM 2: 効率的なフレームプルーニングによる手術動画のリアルタイムセグメンテーション

Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning

August 15, 2024
著者: Haofeng Liu, Erli Zhang, Junde Wu, Mingxuan Hong, Yueming Jin
cs.AI

要旨

手術映像のセグメンテーションは、コンピュータ支援手術における重要なタスクであり、手術の質と患者のアウトカムを向上させるために不可欠です。最近、Segment Anything Model 2(SAM2)フレームワークが、画像および映像セグメンテーションにおいて優れた進展を示しています。しかし、SAM2は高解像度画像の処理や手術映像における複雑で長期的な時間的ダイナミクスに対する高い計算要求のため、効率性に課題を抱えています。これらの課題に対処するため、我々はSurgical SAM 2(SurgSAM-2)を導入しました。これは、SAM2を効率的なフレームプルーニング(EFP)メカニズムと組み合わせた先進的なモデルであり、リアルタイムの手術映像セグメンテーションを実現します。EFPメカニズムは、最も情報量の多いフレームを選択的に保持することでメモリバンクを動的に管理し、メモリ使用量と計算コストを削減しながら高いセグメンテーション精度を維持します。我々の広範な実験により、SurgSAM-2が従来のSAM2と比較して効率性とセグメンテーション精度の両方を大幅に向上させることが実証されました。特に、SurgSAM-2はSAM2と比較して3倍のFPSを達成し、低解像度データでのファインチューニング後も最先端の性能を発揮します。これらの進展により、SurgSAM-2は手術映像分析における主要なモデルとして確立され、リソースが制限された環境でのリアルタイム手術映像セグメンテーションを現実的なものとしました。
English
Surgical video segmentation is a critical task in computer-assisted surgery and is vital for enhancing surgical quality and patient outcomes. Recently, the Segment Anything Model 2 (SAM2) framework has shown superior advancements in image and video segmentation. However, SAM2 struggles with efficiency due to the high computational demands of processing high-resolution images and complex and long-range temporal dynamics in surgical videos. To address these challenges, we introduce Surgical SAM 2 (SurgSAM-2), an advanced model to utilize SAM2 with an Efficient Frame Pruning (EFP) mechanism, to facilitate real-time surgical video segmentation. The EFP mechanism dynamically manages the memory bank by selectively retaining only the most informative frames, reducing memory usage and computational cost while maintaining high segmentation accuracy. Our extensive experiments demonstrate that SurgSAM-2 significantly improves both efficiency and segmentation accuracy compared to the vanilla SAM2. Remarkably, SurgSAM-2 achieves a 3times FPS compared with SAM2, while also delivering state-of-the-art performance after fine-tuning with lower-resolution data. These advancements establish SurgSAM-2 as a leading model for surgical video analysis, making real-time surgical video segmentation in resource-constrained environments a feasible reality.

Summary

AI-Generated Summary

PDF222November 26, 2024