ChatPaper.aiChatPaper

ReSurgSAM2: Referenzsegmentierung in chirurgischen Videos durch zuverlässiges Langzeit-Tracking

ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking

May 13, 2025
Autoren: Haofeng Liu, Mingqi Gao, Xuxiao Luo, Ziyue Wang, Guanyi Qin, Junde Wu, Yueming Jin
cs.AI

Zusammenfassung

Die Segmentierung chirurgischer Szenen ist entscheidend für die computerassistierte Chirurgie und von zentraler Bedeutung für die Verbesserung der chirurgischen Qualität und der Patientenergebnisse. In jüngster Zeit gewinnt die referenzielle chirurgische Segmentierung an Bedeutung, da sie den Chirurgen eine interaktive Erfahrung bietet, um das Zielobjekt zu segmentieren. Allerdings sind bestehende Methoden durch geringe Effizienz und kurzfristiges Tracking eingeschränkt, was ihre Anwendbarkeit in komplexen realen chirurgischen Szenarien behindert. In diesem Artikel stellen wir ReSurgSAM2 vor, ein zweistufiges Framework für die referenzielle chirurgische Segmentierung, das das Segment Anything Model 2 nutzt, um eine textreferenzierte Zielerkennung durchzuführen, gefolgt von einem Tracking mit zuverlässiger Initialrahmenidentifikation und diversitätsgetriebener Langzeitspeicherung. Für die Erkennungsstufe schlagen wir einen cross-modalen räumlich-zeitlichen Mamba vor, um präzise Erkennungs- und Segmentierungsergebnisse zu erzielen. Basierend auf diesen Ergebnissen identifiziert unsere Strategie zur Auswahl des zuverlässigen Initialrahmens den zuverlässigen Rahmen für das anschließende Tracking. Nach der Auswahl des Initialrahmens wechselt unsere Methode in die Tracking-Phase, in der sie einen diversitätsgetriebenen Speichermechanismus integriert, der einen zuverlässigen und vielfältigen Speicherpool aufrechterhält und so ein konsistentes Langzeit-Tracking gewährleistet. Umfangreiche Experimente zeigen, dass ReSurgSAM2 im Vergleich zu bestehenden Methoden erhebliche Verbesserungen in Bezug auf Genauigkeit und Effizienz erzielt und in Echtzeit mit 61,2 FPS arbeitet. Unser Code und die Datensätze werden unter https://github.com/jinlab-imvr/ReSurgSAM2 verfügbar sein.
English
Surgical scene segmentation is critical in computer-assisted surgery and is vital for enhancing surgical quality and patient outcomes. Recently, referring surgical segmentation is emerging, given its advantage of providing surgeons with an interactive experience to segment the target object. However, existing methods are limited by low efficiency and short-term tracking, hindering their applicability in complex real-world surgical scenarios. In this paper, we introduce ReSurgSAM2, a two-stage surgical referring segmentation framework that leverages Segment Anything Model 2 to perform text-referred target detection, followed by tracking with reliable initial frame identification and diversity-driven long-term memory. For the detection stage, we propose a cross-modal spatial-temporal Mamba to generate precise detection and segmentation results. Based on these results, our credible initial frame selection strategy identifies the reliable frame for the subsequent tracking. Upon selecting the initial frame, our method transitions to the tracking stage, where it incorporates a diversity-driven memory mechanism that maintains a credible and diverse memory bank, ensuring consistent long-term tracking. Extensive experiments demonstrate that ReSurgSAM2 achieves substantial improvements in accuracy and efficiency compared to existing methods, operating in real-time at 61.2 FPS. Our code and datasets will be available at https://github.com/jinlab-imvr/ReSurgSAM2.

Summary

AI-Generated Summary

PDF72May 16, 2025