ReSurgSAM2 : Segmentation référencée dans les vidéos chirurgicales via un suivi crédible à long terme
ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking
May 13, 2025
Auteurs: Haofeng Liu, Mingqi Gao, Xuxiao Luo, Ziyue Wang, Guanyi Qin, Junde Wu, Yueming Jin
cs.AI
Résumé
La segmentation de scènes chirurgicales est cruciale dans la chirurgie assistée par ordinateur et joue un rôle essentiel dans l'amélioration de la qualité des interventions et des résultats pour les patients. Récemment, la segmentation chirurgicale référencée émerge, grâce à son avantage de fournir aux chirurgiens une expérience interactive pour segmenter l'objet cible. Cependant, les méthodes existantes sont limitées par une faible efficacité et un suivi à court terme, ce qui entrave leur applicabilité dans des scénarios chirurgicaux complexes du monde réel. Dans cet article, nous présentons ReSurgSAM2, un cadre de segmentation chirurgicale référencée en deux étapes qui exploite le modèle Segment Anything Model 2 pour effectuer une détection ciblée basée sur le texte, suivie d'un suivi avec une identification fiable de l'image initiale et une mémoire à long terme pilotée par la diversité. Pour l'étape de détection, nous proposons un Mamba spatio-temporel cross-modal pour générer des résultats de détection et de segmentation précis. Sur la base de ces résultats, notre stratégie de sélection d'image initiale crédible identifie l'image fiable pour le suivi ultérieur. Une fois l'image initiale sélectionnée, notre méthode passe à l'étape de suivi, où elle intègre un mécanisme de mémoire piloté par la diversité qui maintient une banque de mémoire crédible et diversifiée, assurant un suivi à long terme cohérent. Des expériences approfondies démontrent que ReSurgSAM2 réalise des améliorations substantielles en termes de précision et d'efficacité par rapport aux méthodes existantes, fonctionnant en temps réel à 61,2 FPS. Notre code et nos jeux de données seront disponibles à l'adresse https://github.com/jinlab-imvr/ReSurgSAM2.
English
Surgical scene segmentation is critical in computer-assisted surgery and is
vital for enhancing surgical quality and patient outcomes. Recently, referring
surgical segmentation is emerging, given its advantage of providing surgeons
with an interactive experience to segment the target object. However, existing
methods are limited by low efficiency and short-term tracking, hindering their
applicability in complex real-world surgical scenarios. In this paper, we
introduce ReSurgSAM2, a two-stage surgical referring segmentation framework
that leverages Segment Anything Model 2 to perform text-referred target
detection, followed by tracking with reliable initial frame identification and
diversity-driven long-term memory. For the detection stage, we propose a
cross-modal spatial-temporal Mamba to generate precise detection and
segmentation results. Based on these results, our credible initial frame
selection strategy identifies the reliable frame for the subsequent tracking.
Upon selecting the initial frame, our method transitions to the tracking stage,
where it incorporates a diversity-driven memory mechanism that maintains a
credible and diverse memory bank, ensuring consistent long-term tracking.
Extensive experiments demonstrate that ReSurgSAM2 achieves substantial
improvements in accuracy and efficiency compared to existing methods, operating
in real-time at 61.2 FPS. Our code and datasets will be available at
https://github.com/jinlab-imvr/ReSurgSAM2.Summary
AI-Generated Summary