ReSurgSAM2: Segmentación Referencial en Videos Quirúrgicos mediante Seguimiento Fiable a Largo Plazo

Resumen

La segmentación de escenas quirúrgicas es fundamental en la cirugía asistida por computadora y es crucial para mejorar la calidad quirúrgica y los resultados de los pacientes. Recientemente, ha surgido la segmentación quirúrgica referencial, dada su ventaja de proporcionar a los cirujanos una experiencia interactiva para segmentar el objeto objetivo. Sin embargo, los métodos existentes están limitados por su baja eficiencia y seguimiento a corto plazo, lo que dificulta su aplicabilidad en escenarios quirúrgicos complejos del mundo real. En este artículo, presentamos ReSurgSAM2, un marco de segmentación referencial quirúrgica en dos etapas que aprovecha el Segment Anything Model 2 para realizar la detección de objetivos referenciados por texto, seguido de un seguimiento con identificación confiable del marco inicial y memoria a largo plazo impulsada por la diversidad. Para la etapa de detección, proponemos un Mamba espacial-temporal multimodal para generar resultados precisos de detección y segmentación. Basándonos en estos resultados, nuestra estrategia de selección de marco inicial confiable identifica el marco confiable para el seguimiento posterior. Una vez seleccionado el marco inicial, nuestro método pasa a la etapa de seguimiento, donde incorpora un mecanismo de memoria impulsado por la diversidad que mantiene un banco de memoria confiable y diverso, asegurando un seguimiento consistente a largo plazo. Experimentos exhaustivos demuestran que ReSurgSAM2 logra mejoras sustanciales en precisión y eficiencia en comparación con los métodos existentes, operando en tiempo real a 61.2 FPS. Nuestro código y conjuntos de datos estarán disponibles en https://github.com/jinlab-imvr/ReSurgSAM2.

English

Surgical scene segmentation is critical in computer-assisted surgery and is vital for enhancing surgical quality and patient outcomes. Recently, referring surgical segmentation is emerging, given its advantage of providing surgeons with an interactive experience to segment the target object. However, existing methods are limited by low efficiency and short-term tracking, hindering their applicability in complex real-world surgical scenarios. In this paper, we introduce ReSurgSAM2, a two-stage surgical referring segmentation framework that leverages Segment Anything Model 2 to perform text-referred target detection, followed by tracking with reliable initial frame identification and diversity-driven long-term memory. For the detection stage, we propose a cross-modal spatial-temporal Mamba to generate precise detection and segmentation results. Based on these results, our credible initial frame selection strategy identifies the reliable frame for the subsequent tracking. Upon selecting the initial frame, our method transitions to the tracking stage, where it incorporates a diversity-driven memory mechanism that maintains a credible and diverse memory bank, ensuring consistent long-term tracking. Extensive experiments demonstrate that ReSurgSAM2 achieves substantial improvements in accuracy and efficiency compared to existing methods, operating in real-time at 61.2 FPS. Our code and datasets will be available at https://github.com/jinlab-imvr/ReSurgSAM2.

ReSurgSAM2: Segmentación Referencial en Videos Quirúrgicos mediante Seguimiento Fiable a Largo Plazo

ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking

Resumen

Support