ChatPaper.aiChatPaper

ReSurgSAM2 : Segmentation référencée dans les vidéos chirurgicales via un suivi crédible à long terme

ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking

May 13, 2025
Auteurs: Haofeng Liu, Mingqi Gao, Xuxiao Luo, Ziyue Wang, Guanyi Qin, Junde Wu, Yueming Jin
cs.AI

Résumé

La segmentation de scènes chirurgicales est cruciale dans la chirurgie assistée par ordinateur et joue un rôle essentiel dans l'amélioration de la qualité des interventions et des résultats pour les patients. Récemment, la segmentation chirurgicale référencée émerge, grâce à son avantage de fournir aux chirurgiens une expérience interactive pour segmenter l'objet cible. Cependant, les méthodes existantes sont limitées par une faible efficacité et un suivi à court terme, ce qui entrave leur applicabilité dans des scénarios chirurgicaux complexes du monde réel. Dans cet article, nous présentons ReSurgSAM2, un cadre de segmentation chirurgicale référencée en deux étapes qui exploite le modèle Segment Anything Model 2 pour effectuer une détection ciblée basée sur le texte, suivie d'un suivi avec une identification fiable de l'image initiale et une mémoire à long terme pilotée par la diversité. Pour l'étape de détection, nous proposons un Mamba spatio-temporel cross-modal pour générer des résultats de détection et de segmentation précis. Sur la base de ces résultats, notre stratégie de sélection d'image initiale crédible identifie l'image fiable pour le suivi ultérieur. Une fois l'image initiale sélectionnée, notre méthode passe à l'étape de suivi, où elle intègre un mécanisme de mémoire piloté par la diversité qui maintient une banque de mémoire crédible et diversifiée, assurant un suivi à long terme cohérent. Des expériences approfondies démontrent que ReSurgSAM2 réalise des améliorations substantielles en termes de précision et d'efficacité par rapport aux méthodes existantes, fonctionnant en temps réel à 61,2 FPS. Notre code et nos jeux de données seront disponibles à l'adresse https://github.com/jinlab-imvr/ReSurgSAM2.
English
Surgical scene segmentation is critical in computer-assisted surgery and is vital for enhancing surgical quality and patient outcomes. Recently, referring surgical segmentation is emerging, given its advantage of providing surgeons with an interactive experience to segment the target object. However, existing methods are limited by low efficiency and short-term tracking, hindering their applicability in complex real-world surgical scenarios. In this paper, we introduce ReSurgSAM2, a two-stage surgical referring segmentation framework that leverages Segment Anything Model 2 to perform text-referred target detection, followed by tracking with reliable initial frame identification and diversity-driven long-term memory. For the detection stage, we propose a cross-modal spatial-temporal Mamba to generate precise detection and segmentation results. Based on these results, our credible initial frame selection strategy identifies the reliable frame for the subsequent tracking. Upon selecting the initial frame, our method transitions to the tracking stage, where it incorporates a diversity-driven memory mechanism that maintains a credible and diverse memory bank, ensuring consistent long-term tracking. Extensive experiments demonstrate that ReSurgSAM2 achieves substantial improvements in accuracy and efficiency compared to existing methods, operating in real-time at 61.2 FPS. Our code and datasets will be available at https://github.com/jinlab-imvr/ReSurgSAM2.

Summary

AI-Generated Summary

PDF72May 16, 2025