ChatPaper.aiChatPaper

SAM2S: Segmentación de Cualquier Elemento en Videos Quirúrgicos mediante Seguimiento Semántico a Largo Plazo

SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking

November 20, 2025
Autores: Haofeng Liu, Ziyue Wang, Sudhanshu Mishra, Mingqi Gao, Guanyi Qin, Chang Han Low, Alex Y. W. Kong, Yueming Jin
cs.AI

Resumen

La segmentación de vídeo quirúrgico es crucial para la cirugía asistida por computadora, ya que permite la localización y el seguimiento precisos de instrumentos y tejidos. Los modelos de Segmentación Interactiva de Objetos en Vídeo (iVOS), como Segment Anything Model 2 (SAM2), ofrecen una flexibilidad basada en prompts que supera a los métodos con categorías predefinidas, pero se enfrentan a desafíos en escenarios quirúrgicos debido a la brecha de dominio y al seguimiento limitado a largo plazo. Para abordar estas limitaciones, construimos SA-SV, el mayor benchmark de iVOS quirúrgico con anotaciones espacio-temporales a nivel de instancia (masklets) que abarca ocho tipos de procedimientos (61k fotogramas, 1.6k masklets), permitiendo un desarrollo y evaluación integrales para el seguimiento a largo plazo y la generalización zero-shot. Basándonos en SA-SV, proponemos SAM2S, un modelo fundacional que mejora SAM2 para iVOS Quirúrgico mediante: (1) DiveMem, un mecanismo de memoria diversa entrenable para un seguimiento robusto a largo plazo; (2) aprendizaje semántico temporal para la comprensión de instrumentos; y (3) aprendizaje resiliente a la ambigüedad para mitigar las inconsistencias en las anotaciones de conjuntos de datos multi-fuente. Experimentos exhaustivos demuestran que el fine-tuning en SA-SV permite ganancias sustanciales de rendimiento, mejorando SAM2 en 12.99 puntos de J\&F promedio respecto al SAM2 original. SAM2S avanza aún más el rendimiento hasta 80.42 de J\&F promedio, superando al SAM2 original y al ajustado por 17.10 y 4.11 puntos respectivamente, manteniendo una inferencia en tiempo real de 68 FPS y una fuerte generalización zero-shot. El código y el conjunto de datos se publicarán en https://jinlab-imvr.github.io/SAM2S.
English
Surgical video segmentation is crucial for computer-assisted surgery, enabling precise localization and tracking of instruments and tissues. Interactive Video Object Segmentation (iVOS) models such as Segment Anything Model 2 (SAM2) provide prompt-based flexibility beyond methods with predefined categories, but face challenges in surgical scenarios due to the domain gap and limited long-term tracking. To address these limitations, we construct SA-SV, the largest surgical iVOS benchmark with instance-level spatio-temporal annotations (masklets) spanning eight procedure types (61k frames, 1.6k masklets), enabling comprehensive development and evaluation for long-term tracking and zero-shot generalization. Building on SA-SV, we propose SAM2S, a foundation model enhancing SAM2 for Surgical iVOS through: (1) DiveMem, a trainable diverse memory mechanism for robust long-term tracking; (2) temporal semantic learning for instrument understanding; and (3) ambiguity-resilient learning to mitigate annotation inconsistencies across multi-source datasets. Extensive experiments demonstrate that fine-tuning on SA-SV enables substantial performance gains, with SAM2 improving by 12.99 average J\&F over vanilla SAM2. SAM2S further advances performance to 80.42 average J\&F, surpassing vanilla and fine-tuned SAM2 by 17.10 and 4.11 points respectively, while maintaining 68 FPS real-time inference and strong zero-shot generalization. Code and dataset will be released at https://jinlab-imvr.github.io/SAM2S.
PDF72December 1, 2025