ReSurgSAM2: Segmentação Referencial em Vídeos Cirúrgicos via Rastreamento Confiável de Longo Prazo
ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking
May 13, 2025
Autores: Haofeng Liu, Mingqi Gao, Xuxiao Luo, Ziyue Wang, Guanyi Qin, Junde Wu, Yueming Jin
cs.AI
Resumo
A segmentação de cenas cirúrgicas é crucial na cirurgia assistida por computador e é vital para melhorar a qualidade cirúrgica e os resultados dos pacientes. Recentemente, a segmentação cirúrgica referenciada está emergindo, dada sua vantagem de fornecer aos cirurgiões uma experiência interativa para segmentar o objeto alvo. No entanto, os métodos existentes são limitados pela baixa eficiência e rastreamento de curto prazo, dificultando sua aplicabilidade em cenários cirúrgicos complexos do mundo real. Neste artigo, apresentamos o ReSurgSAM2, uma estrutura de segmentação referenciada cirúrgica em dois estágios que aproveita o Segment Anything Model 2 para realizar a detecção de alvos referenciados por texto, seguida pelo rastreamento com identificação confiável do quadro inicial e memória de longo prazo orientada pela diversidade. Para o estágio de detecção, propomos um Mamba espaço-temporal multimodal para gerar resultados precisos de detecção e segmentação. Com base nesses resultados, nossa estratégia de seleção de quadro inicial confiável identifica o quadro confiável para o subsequente rastreamento. Após a seleção do quadro inicial, nosso método transita para o estágio de rastreamento, onde incorpora um mecanismo de memória orientado pela diversidade que mantém um banco de memória confiável e diversificado, garantindo um rastreamento consistente de longo prazo. Experimentos extensivos demonstram que o ReSurgSAM2 alcança melhorias substanciais em precisão e eficiência em comparação com os métodos existentes, operando em tempo real a 61,2 FPS. Nosso código e conjuntos de dados estarão disponíveis em https://github.com/jinlab-imvr/ReSurgSAM2.
English
Surgical scene segmentation is critical in computer-assisted surgery and is
vital for enhancing surgical quality and patient outcomes. Recently, referring
surgical segmentation is emerging, given its advantage of providing surgeons
with an interactive experience to segment the target object. However, existing
methods are limited by low efficiency and short-term tracking, hindering their
applicability in complex real-world surgical scenarios. In this paper, we
introduce ReSurgSAM2, a two-stage surgical referring segmentation framework
that leverages Segment Anything Model 2 to perform text-referred target
detection, followed by tracking with reliable initial frame identification and
diversity-driven long-term memory. For the detection stage, we propose a
cross-modal spatial-temporal Mamba to generate precise detection and
segmentation results. Based on these results, our credible initial frame
selection strategy identifies the reliable frame for the subsequent tracking.
Upon selecting the initial frame, our method transitions to the tracking stage,
where it incorporates a diversity-driven memory mechanism that maintains a
credible and diverse memory bank, ensuring consistent long-term tracking.
Extensive experiments demonstrate that ReSurgSAM2 achieves substantial
improvements in accuracy and efficiency compared to existing methods, operating
in real-time at 61.2 FPS. Our code and datasets will be available at
https://github.com/jinlab-imvr/ReSurgSAM2.