ReSurgSAM2: Segmentazione Referenziale in Video Chirurgici tramite Tracciamento Credibile a Lungo Termine
ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking
May 13, 2025
Autori: Haofeng Liu, Mingqi Gao, Xuxiao Luo, Ziyue Wang, Guanyi Qin, Junde Wu, Yueming Jin
cs.AI
Abstract
La segmentazione della scena chirurgica è fondamentale nella chirurgia assistita da computer ed è cruciale per migliorare la qualità chirurgica e gli esiti dei pazienti. Recentemente, sta emergendo la segmentazione chirurgica referenziale, grazie al suo vantaggio di fornire ai chirurghi un'esperienza interattiva per segmentare l'oggetto target. Tuttavia, i metodi esistenti sono limitati da una bassa efficienza e da un tracciamento a breve termine, ostacolando la loro applicabilità in scenari chirurgici complessi del mondo reale. In questo articolo, presentiamo ReSurgSAM2, un framework di segmentazione referenziale chirurgica a due stadi che sfrutta il Segment Anything Model 2 per eseguire la rilevazione del target basata su testo, seguita dal tracciamento con identificazione affidabile del frame iniziale e memoria a lungo termine guidata dalla diversità. Per la fase di rilevazione, proponiamo una Mamba spazio-temporale cross-modale per generare risultati di rilevazione e segmentazione precisi. Sulla base di questi risultati, la nostra strategia di selezione del frame iniziale credibile identifica il frame affidabile per il successivo tracciamento. Una volta selezionato il frame iniziale, il nostro metodo passa alla fase di tracciamento, incorporando un meccanismo di memoria guidato dalla diversità che mantiene una banca di memoria credibile e diversificata, garantendo un tracciamento a lungo termine coerente. Esperimenti estesi dimostrano che ReSurgSAM2 raggiunge miglioramenti sostanziali in termini di accuratezza ed efficienza rispetto ai metodi esistenti, operando in tempo reale a 61.2 FPS. Il nostro codice e i dataset saranno disponibili su https://github.com/jinlab-imvr/ReSurgSAM2.
English
Surgical scene segmentation is critical in computer-assisted surgery and is
vital for enhancing surgical quality and patient outcomes. Recently, referring
surgical segmentation is emerging, given its advantage of providing surgeons
with an interactive experience to segment the target object. However, existing
methods are limited by low efficiency and short-term tracking, hindering their
applicability in complex real-world surgical scenarios. In this paper, we
introduce ReSurgSAM2, a two-stage surgical referring segmentation framework
that leverages Segment Anything Model 2 to perform text-referred target
detection, followed by tracking with reliable initial frame identification and
diversity-driven long-term memory. For the detection stage, we propose a
cross-modal spatial-temporal Mamba to generate precise detection and
segmentation results. Based on these results, our credible initial frame
selection strategy identifies the reliable frame for the subsequent tracking.
Upon selecting the initial frame, our method transitions to the tracking stage,
where it incorporates a diversity-driven memory mechanism that maintains a
credible and diverse memory bank, ensuring consistent long-term tracking.
Extensive experiments demonstrate that ReSurgSAM2 achieves substantial
improvements in accuracy and efficiency compared to existing methods, operating
in real-time at 61.2 FPS. Our code and datasets will be available at
https://github.com/jinlab-imvr/ReSurgSAM2.