Surgical SAM 2: Segmentazione in Tempo Reale di Qualsiasi Elemento in Video Chirurgici mediante Efficient Frame Pruning
Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning
August 15, 2024
Autori: Haofeng Liu, Erli Zhang, Junde Wu, Mingxuan Hong, Yueming Jin
cs.AI
Abstract
La segmentazione di video chirurgici è un compito cruciale nella chirurgia assistita da computer ed è fondamentale per migliorare la qualità chirurgica e gli esiti dei pazienti. Recentemente, il framework Segment Anything Model 2 (SAM2) ha mostrato progressi significativi nella segmentazione di immagini e video. Tuttavia, SAM2 incontra difficoltà in termini di efficienza a causa delle elevate richieste computazionali necessarie per elaborare immagini ad alta risoluzione e dinamiche temporali complesse e di lungo raggio nei video chirurgici. Per affrontare queste sfide, introduciamo Surgical SAM 2 (SurgSAM-2), un modello avanzato che utilizza SAM2 con un meccanismo di Efficient Frame Pruning (EFP), per facilitare la segmentazione in tempo reale dei video chirurgici. Il meccanismo EFP gestisce dinamicamente la memoria selettivamente conservando solo i fotogrammi più informativi, riducendo l'uso della memoria e il costo computazionale pur mantenendo un'elevata accuratezza di segmentazione. I nostri esperimenti estesi dimostrano che SurgSAM-2 migliora significativamente sia l'efficienza che l'accuratezza della segmentazione rispetto al SAM2 standard. In modo notevole, SurgSAM-2 raggiunge un FPS 3 volte superiore rispetto a SAM2, offrendo anche prestazioni all'avanguardia dopo il fine-tuning con dati a risoluzione inferiore. Questi progressi stabiliscono SurgSAM-2 come un modello leader per l'analisi dei video chirurgici, rendendo la segmentazione in tempo reale dei video chirurgici in ambienti con risorse limitate una realtà fattibile.
English
Surgical video segmentation is a critical task in computer-assisted surgery
and is vital for enhancing surgical quality and patient outcomes. Recently, the
Segment Anything Model 2 (SAM2) framework has shown superior advancements in
image and video segmentation. However, SAM2 struggles with efficiency due to
the high computational demands of processing high-resolution images and complex
and long-range temporal dynamics in surgical videos. To address these
challenges, we introduce Surgical SAM 2 (SurgSAM-2), an advanced model to
utilize SAM2 with an Efficient Frame Pruning (EFP) mechanism, to facilitate
real-time surgical video segmentation. The EFP mechanism dynamically manages
the memory bank by selectively retaining only the most informative frames,
reducing memory usage and computational cost while maintaining high
segmentation accuracy. Our extensive experiments demonstrate that SurgSAM-2
significantly improves both efficiency and segmentation accuracy compared to
the vanilla SAM2. Remarkably, SurgSAM-2 achieves a 3times FPS compared with
SAM2, while also delivering state-of-the-art performance after fine-tuning with
lower-resolution data. These advancements establish SurgSAM-2 as a leading
model for surgical video analysis, making real-time surgical video segmentation
in resource-constrained environments a feasible reality.