수술 SAM 2: 효율적인 프레임 가지치기를 통해 수술 비디오에서 실시간으로 모든 것을 세분화하기
Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning
August 15, 2024
저자: Haofeng Liu, Erli Zhang, Junde Wu, Mingxuan Hong, Yueming Jin
cs.AI
초록
수술 비디오 세그멘테이션은 컴퓨터 지원 수술에서 중요한 작업으로, 수술 품질과 환자 결과를 향상시키는 데 중요합니다. 최근에 Segment Anything Model 2 (SAM2) 프레임워크는 이미지 및 비디오 세그멘테이션에서 우수한 발전을 보여주었습니다. 그러나 SAM2는 고해상도 이미지 처리 및 수술 비디오의 복잡하고 장거리 시간 역학으로 인한 높은 계산 요구로 효율성에 어려움을 겪고 있습니다. 이러한 도전에 대응하기 위해 우리는 Surgical SAM 2 (SurgSAM-2)를 소개합니다. 이는 효율적인 프레임 가지치기(Efficient Frame Pruning, EFP) 메커니즘을 사용하여 SAM2를 활용하여 실시간 수술 비디오 세그멘테이션을 용이하게 합니다. EFP 메커니즘은 가장 정보가 풍부한 프레임만 선택적으로 보유함으로써 메모리 사용량과 계산 비용을 줄이면서 높은 세그멘테이션 정확도를 유지합니다. 우리의 포괄적인 실험은 SurgSAM-2가 바닐라 SAM2와 비교하여 효율성과 세그멘테이션 정확도를 크게 향상시킨다는 것을 입증합니다. 놀랍게도, SurgSAM-2는 SAM2와 비교하여 3배 빠른 FPS를 달성하며, 낮은 해상도 데이터로 세밀 조정한 후에도 최첨단 성능을 제공합니다. 이러한 발전으로 SurgSAM-2는 수술 비디오 분석을 위한 선도적인 모델로 자리매김하며, 자원 제약 환경에서 실시간 수술 비디오 세그멘테이션을 가능한 현실로 만듭니다.
English
Surgical video segmentation is a critical task in computer-assisted surgery
and is vital for enhancing surgical quality and patient outcomes. Recently, the
Segment Anything Model 2 (SAM2) framework has shown superior advancements in
image and video segmentation. However, SAM2 struggles with efficiency due to
the high computational demands of processing high-resolution images and complex
and long-range temporal dynamics in surgical videos. To address these
challenges, we introduce Surgical SAM 2 (SurgSAM-2), an advanced model to
utilize SAM2 with an Efficient Frame Pruning (EFP) mechanism, to facilitate
real-time surgical video segmentation. The EFP mechanism dynamically manages
the memory bank by selectively retaining only the most informative frames,
reducing memory usage and computational cost while maintaining high
segmentation accuracy. Our extensive experiments demonstrate that SurgSAM-2
significantly improves both efficiency and segmentation accuracy compared to
the vanilla SAM2. Remarkably, SurgSAM-2 achieves a 3times FPS compared with
SAM2, while also delivering state-of-the-art performance after fine-tuning with
lower-resolution data. These advancements establish SurgSAM-2 as a leading
model for surgical video analysis, making real-time surgical video segmentation
in resource-constrained environments a feasible reality.Summary
AI-Generated Summary