ChatPaper.aiChatPaper

ReSurgSAM2: Refereren naar Segment Anything in chirurgische video's via geloofwaardige langetermijntracking

ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking

May 13, 2025
Auteurs: Haofeng Liu, Mingqi Gao, Xuxiao Luo, Ziyue Wang, Guanyi Qin, Junde Wu, Yueming Jin
cs.AI

Samenvatting

Segmentatie van chirurgische scènes is cruciaal in computerondersteunde chirurgie en is essentieel voor het verbeteren van de chirurgische kwaliteit en patiëntresultaten. Onlangs komt refererende chirurgische segmentatie op, vanwege het voordeel dat het chirurgen een interactieve ervaring biedt om het doelobject te segmenteren. Bestaande methoden worden echter beperkt door lage efficiëntie en kortetermijntracking, wat hun toepasbaarheid in complexe real-world chirurgische scenario's belemmert. In dit artikel introduceren we ReSurgSAM2, een tweestaps chirurgisch refererend segmentatieraamwerk dat gebruikmaakt van het Segment Anything Model 2 om tekstverwijzende doelobjectdetectie uit te voeren, gevolgd door tracking met betrouwbare initiële frame-identificatie en diversiteitgedreven langetermijngeheugen. Voor de detectiefase stellen we een cross-modale ruimtelijk-temporele Mamba voor om nauwkeurige detectie- en segmentatieresultaten te genereren. Op basis van deze resultaten identificeert onze betrouwbare initiële frameselectiestrategie het betrouwbare frame voor de daaropvolgende tracking. Na het selecteren van het initiële frame gaat onze methode over naar de trackingfase, waarin een diversiteitgedreven geheugenmechanisme wordt geïntegreerd dat een betrouwbaar en divers geheugenbank onderhoudt, wat consistente langetermijntracking garandeert. Uitgebreide experimenten tonen aan dat ReSurgSAM2 aanzienlijke verbeteringen in nauwkeurigheid en efficiëntie bereikt in vergelijking met bestaande methoden, en opereert in real-time met 61,2 FPS. Onze code en datasets zullen beschikbaar zijn op https://github.com/jinlab-imvr/ReSurgSAM2.
English
Surgical scene segmentation is critical in computer-assisted surgery and is vital for enhancing surgical quality and patient outcomes. Recently, referring surgical segmentation is emerging, given its advantage of providing surgeons with an interactive experience to segment the target object. However, existing methods are limited by low efficiency and short-term tracking, hindering their applicability in complex real-world surgical scenarios. In this paper, we introduce ReSurgSAM2, a two-stage surgical referring segmentation framework that leverages Segment Anything Model 2 to perform text-referred target detection, followed by tracking with reliable initial frame identification and diversity-driven long-term memory. For the detection stage, we propose a cross-modal spatial-temporal Mamba to generate precise detection and segmentation results. Based on these results, our credible initial frame selection strategy identifies the reliable frame for the subsequent tracking. Upon selecting the initial frame, our method transitions to the tracking stage, where it incorporates a diversity-driven memory mechanism that maintains a credible and diverse memory bank, ensuring consistent long-term tracking. Extensive experiments demonstrate that ReSurgSAM2 achieves substantial improvements in accuracy and efficiency compared to existing methods, operating in real-time at 61.2 FPS. Our code and datasets will be available at https://github.com/jinlab-imvr/ReSurgSAM2.

Summary

AI-Generated Summary

PDF82May 16, 2025