ChatPaper.aiChatPaper

SAM2S: Сегментация любых объектов в хирургических видео с помощью семантического долгосрочного отслеживания

SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking

November 20, 2025
Авторы: Haofeng Liu, Ziyue Wang, Sudhanshu Mishra, Mingqi Gao, Guanyi Qin, Chang Han Low, Alex Y. W. Kong, Yueming Jin
cs.AI

Аннотация

Сегментация хирургических видео играет ключевую роль в компьютерно-ассистируемой хирургии, обеспечивая точную локализацию и отслеживание инструментов и тканей. Интерактивные модели сегментации видеообъектов (iVOS), такие как Segment Anything Model 2 (SAM2), предлагают гибкость на основе промптов по сравнению с методами, использующими предопределенные категории, однако сталкиваются с трудностями в хирургических сценариях из-за доменного разрыва и ограниченного долгосрочного трекинга. Для преодоления этих ограничений мы создали SA-SV — крупнейший бенчмарк для хирургической iVOS с инстанс-разметкой в пространственно-временном контексте (масклеты), охватывающий восемь типов операций (61 тыс. кадров, 1,6 тыс. масклетов), что позволяет проводить комплексную разработку и оценку долгосрочного трекинга и обобщения с нулевым сэмплированием. На основе SA-SV мы предлагаем SAM2S — фреймворк-модель, расширяющую возможности SAM2 для хирургической iVOS за счет: (1) DiveMem, обучаемого механизма разнообразной памяти для устойчивого долгосрочного трекинга; (2) темпорального семантического обучения для понимания инструментов; и (3) устойчивого к неоднозначности обучения для снижения влияния противоречий в разметке из мульти-источниковых наборов данных. Масштабные эксперименты демонстрируют, что дообучение на SA-SV обеспечивает значительный прирост производительности: SAM2 улучшает показатель average J\&F на 12,99 по сравнению с базовой версией. SAM2S дополнительно повышает результат до 80,42 average J\&F, превосходя базовую и дообученную версии SAM2 на 17,10 и 4,11 пунктов соответственно, при сохранении инференса в реальном времени (68 FPS) и высокой способности к обобщению с нулевым сэмплированием. Код и набор данных будут доступны по адресу https://jinlab-imvr.github.io/SAM2S.
English
Surgical video segmentation is crucial for computer-assisted surgery, enabling precise localization and tracking of instruments and tissues. Interactive Video Object Segmentation (iVOS) models such as Segment Anything Model 2 (SAM2) provide prompt-based flexibility beyond methods with predefined categories, but face challenges in surgical scenarios due to the domain gap and limited long-term tracking. To address these limitations, we construct SA-SV, the largest surgical iVOS benchmark with instance-level spatio-temporal annotations (masklets) spanning eight procedure types (61k frames, 1.6k masklets), enabling comprehensive development and evaluation for long-term tracking and zero-shot generalization. Building on SA-SV, we propose SAM2S, a foundation model enhancing SAM2 for Surgical iVOS through: (1) DiveMem, a trainable diverse memory mechanism for robust long-term tracking; (2) temporal semantic learning for instrument understanding; and (3) ambiguity-resilient learning to mitigate annotation inconsistencies across multi-source datasets. Extensive experiments demonstrate that fine-tuning on SA-SV enables substantial performance gains, with SAM2 improving by 12.99 average J\&F over vanilla SAM2. SAM2S further advances performance to 80.42 average J\&F, surpassing vanilla and fine-tuned SAM2 by 17.10 and 4.11 points respectively, while maintaining 68 FPS real-time inference and strong zero-shot generalization. Code and dataset will be released at https://jinlab-imvr.github.io/SAM2S.
PDF72December 1, 2025