ChatPaper.aiChatPaper

ReSurgSAM2: Сегментация объектов в хирургическом видео с использованием достоверного долгосрочного отслеживания

ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking

May 13, 2025
Авторы: Haofeng Liu, Mingqi Gao, Xuxiao Luo, Ziyue Wang, Guanyi Qin, Junde Wu, Yueming Jin
cs.AI

Аннотация

Сегментация хирургической сцены является критически важной задачей в компьютерно-ассистированной хирургии и играет ключевую роль в повышении качества операций и улучшении результатов лечения пациентов. В последнее время набирает популярность сегментация с использованием текстовых указаний, благодаря своей способности предоставлять хирургам интерактивный опыт для выделения целевого объекта. Однако существующие методы ограничены низкой эффективностью и краткосрочным отслеживанием, что затрудняет их применение в сложных реальных хирургических сценариях. В данной работе мы представляем ReSurgSAM2 — двухэтапную структуру для сегментации с текстовыми указаниями, которая использует модель Segment Anything Model 2 для обнаружения цели на основе текстового запроса с последующим отслеживанием, основанным на надежной идентификации начального кадра и долгосрочной памяти, управляемой разнообразием. На этапе обнаружения мы предлагаем кросс-модальную пространственно-временную Mamba для генерации точных результатов обнаружения и сегментации. На основе этих результатов наша стратегия выбора надежного начального кадра определяет подходящий кадр для последующего отслеживания. После выбора начального кадра наш метод переходит к этапу отслеживания, где используется механизм памяти, управляемый разнообразием, который поддерживает надежный и разнообразный банк памяти, обеспечивая стабильное долгосрочное отслеживание. Многочисленные эксперименты демонстрируют, что ReSurgSAM2 достигает значительного улучшения точности и эффективности по сравнению с существующими методами, работая в реальном времени со скоростью 61,2 кадра в секунду. Наш код и наборы данных будут доступны по адресу https://github.com/jinlab-imvr/ReSurgSAM2.
English
Surgical scene segmentation is critical in computer-assisted surgery and is vital for enhancing surgical quality and patient outcomes. Recently, referring surgical segmentation is emerging, given its advantage of providing surgeons with an interactive experience to segment the target object. However, existing methods are limited by low efficiency and short-term tracking, hindering their applicability in complex real-world surgical scenarios. In this paper, we introduce ReSurgSAM2, a two-stage surgical referring segmentation framework that leverages Segment Anything Model 2 to perform text-referred target detection, followed by tracking with reliable initial frame identification and diversity-driven long-term memory. For the detection stage, we propose a cross-modal spatial-temporal Mamba to generate precise detection and segmentation results. Based on these results, our credible initial frame selection strategy identifies the reliable frame for the subsequent tracking. Upon selecting the initial frame, our method transitions to the tracking stage, where it incorporates a diversity-driven memory mechanism that maintains a credible and diverse memory bank, ensuring consistent long-term tracking. Extensive experiments demonstrate that ReSurgSAM2 achieves substantial improvements in accuracy and efficiency compared to existing methods, operating in real-time at 61.2 FPS. Our code and datasets will be available at https://github.com/jinlab-imvr/ReSurgSAM2.

Summary

AI-Generated Summary

PDF72May 16, 2025