SAM2S: Segmentação de Qualquer Elemento em Vídeos Cirúrgicos via Rastreamento Semântico de Longo Prazo

Resumo

A segmentação de vídeos cirúrgicos é crucial para a cirurgia assistida por computador, permitindo a localização e o rastreamento precisos de instrumentos e tecidos. Modelos de Segmentação Interativa de Objetos em Vídeo (iVOS), como o Segment Anything Model 2 (SAM2), oferecem flexibilidade baseada em *prompts*, indo além de métodos com categorias predefinidas, mas enfrentam desafios em cenários cirúrgicos devido à diferença de domínio e ao rastreamento de longo prazo limitado. Para superar essas limitações, construímos o SA-SV, o maior benchmark de iVOS cirúrgico com anotações espaço-temporais em nível de instância (*masklets*) abrangendo oito tipos de procedimentos (61k quadros, 1.6k *masklets*), permitindo o desenvolvimento e avaliação abrangentes para rastreamento de longo prazo e generalização *zero-shot*. Com base no SA-SV, propomos o SAM2S, um modelo de base que aprimora o SAM2 para iVOS Cirúrgico através de: (1) DiveMem, um mecanismo de memória diversificável e treinável para rastreamento de longo prazo robusto; (2) aprendizado de semântica temporal para compreensão de instrumentos; e (3) aprendizado resiliente a ambiguidades para mitigar inconsistências de anotação em conjuntos de dados de múltiplas fontes. Experimentos extensivos demonstram que o ajuste fino no SA-SV permite ganhos substanciais de desempenho, com o SAM2 melhorando em 12.99 de J\&F médio em relação ao SAM2 padrão. O SAM2S avança ainda mais o desempenho para 80.42 de J\&F médio, superando o SAM2 padrão e o com ajuste fino em 17.10 e 4.11 pontos, respectivamente, mantendo inferência em tempo real de 68 FPS e forte generalização *zero-shot*. O código e o conjunto de dados serão disponibilizados em https://jinlab-imvr.github.io/SAM2S.

English

Surgical video segmentation is crucial for computer-assisted surgery, enabling precise localization and tracking of instruments and tissues. Interactive Video Object Segmentation (iVOS) models such as Segment Anything Model 2 (SAM2) provide prompt-based flexibility beyond methods with predefined categories, but face challenges in surgical scenarios due to the domain gap and limited long-term tracking. To address these limitations, we construct SA-SV, the largest surgical iVOS benchmark with instance-level spatio-temporal annotations (masklets) spanning eight procedure types (61k frames, 1.6k masklets), enabling comprehensive development and evaluation for long-term tracking and zero-shot generalization. Building on SA-SV, we propose SAM2S, a foundation model enhancing SAM2 for Surgical iVOS through: (1) DiveMem, a trainable diverse memory mechanism for robust long-term tracking; (2) temporal semantic learning for instrument understanding; and (3) ambiguity-resilient learning to mitigate annotation inconsistencies across multi-source datasets. Extensive experiments demonstrate that fine-tuning on SA-SV enables substantial performance gains, with SAM2 improving by 12.99 average J\&F over vanilla SAM2. SAM2S further advances performance to 80.42 average J\&F, surpassing vanilla and fine-tuned SAM2 by 17.10 and 4.11 points respectively, while maintaining 68 FPS real-time inference and strong zero-shot generalization. Code and dataset will be released at https://jinlab-imvr.github.io/SAM2S.

SAM2S: Segmentação de Qualquer Elemento em Vídeos Cirúrgicos via Rastreamento Semântico de Longo Prazo

SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking

Resumo

Support