ReSurgSAM2:信頼性の高い長期追跡による手術動画内の任意領域参照
ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking
May 13, 2025
著者: Haofeng Liu, Mingqi Gao, Xuxiao Luo, Ziyue Wang, Guanyi Qin, Junde Wu, Yueming Jin
cs.AI
要旨
手術シーンセグメンテーションは、コンピュータ支援手術において極めて重要であり、手術の質と患者の転帰を向上させるために不可欠である。最近、外科医にインタラクティブな体験を提供し、対象物をセグメント化する利点から、参照型手術セグメンテーションが注目を集めている。しかし、既存の手法は効率が低く、短期間の追跡に限定されており、複雑な現実世界の手術シナリオでの適用性が妨げられている。本論文では、Segment Anything Model 2を活用した二段階の手術参照セグメンテーションフレームワークであるReSurgSAM2を提案する。このフレームワークは、テキスト参照によるターゲット検出を行い、信頼性の高い初期フレーム識別と多様性駆動型の長期メモリを用いた追跡を実施する。検出段階では、クロスモーダル時空間Mambaを提案し、正確な検出とセグメンテーション結果を生成する。これらの結果に基づき、信頼性の高い初期フレーム選択戦略が、その後の追跡のための信頼できるフレームを特定する。初期フレームが選択されると、本手法は追跡段階に移行し、信頼性と多様性を備えたメモリバンクを維持する多様性駆動型メモリメカニズムを組み込み、一貫した長期追跡を保証する。大規模な実験により、ReSurgSAM2は既存の手法と比較して精度と効率の大幅な向上を達成し、61.2 FPSでリアルタイムに動作することが実証された。本手法のコードとデータセットはhttps://github.com/jinlab-imvr/ReSurgSAM2で公開予定である。
English
Surgical scene segmentation is critical in computer-assisted surgery and is
vital for enhancing surgical quality and patient outcomes. Recently, referring
surgical segmentation is emerging, given its advantage of providing surgeons
with an interactive experience to segment the target object. However, existing
methods are limited by low efficiency and short-term tracking, hindering their
applicability in complex real-world surgical scenarios. In this paper, we
introduce ReSurgSAM2, a two-stage surgical referring segmentation framework
that leverages Segment Anything Model 2 to perform text-referred target
detection, followed by tracking with reliable initial frame identification and
diversity-driven long-term memory. For the detection stage, we propose a
cross-modal spatial-temporal Mamba to generate precise detection and
segmentation results. Based on these results, our credible initial frame
selection strategy identifies the reliable frame for the subsequent tracking.
Upon selecting the initial frame, our method transitions to the tracking stage,
where it incorporates a diversity-driven memory mechanism that maintains a
credible and diverse memory bank, ensuring consistent long-term tracking.
Extensive experiments demonstrate that ReSurgSAM2 achieves substantial
improvements in accuracy and efficiency compared to existing methods, operating
in real-time at 61.2 FPS. Our code and datasets will be available at
https://github.com/jinlab-imvr/ReSurgSAM2.Summary
AI-Generated Summary