Segment Anything Encuentra el Rastreo de Puntos

Resumen

El Segment Anything Model (SAM) se ha consolidado como un potente modelo de segmentación de imágenes en modo zero-shot, utilizando indicaciones interactivas como puntos para generar máscaras. Este artículo presenta SAM-PT, un método que amplía la capacidad de SAM para rastrear y segmentar cualquier cosa en videos dinámicos. SAM-PT aprovecha técnicas robustas y dispersas de selección y propagación de puntos para la generación de máscaras, demostrando que un rastreador de segmentación basado en SAM puede ofrecer un rendimiento zero-shot sólido en benchmarks populares de segmentación de objetos en video, como DAVIS, YouTube-VOS y MOSE. En comparación con las estrategias tradicionales de propagación de máscaras centradas en objetos, utilizamos de manera única la propagación de puntos para explotar información de estructura local que es agnóstica a la semántica del objeto. Destacamos las ventajas del rastreo basado en puntos mediante una evaluación directa en el benchmark zero-shot de Objetos de Video No Identificados (UVO) en un entorno de mundo abierto. Para mejorar aún más nuestro enfoque, utilizamos clustering K-Medoids para la inicialización de puntos y rastreamos tanto puntos positivos como negativos para distinguir claramente el objeto objetivo. También empleamos múltiples pasadas de decodificación de máscaras para el refinamiento de las mismas y diseñamos una estrategia de reinicialización de puntos para mejorar la precisión del rastreo. Nuestro código integra diferentes rastreadores de puntos y benchmarks de segmentación de video, y será publicado en https://github.com/SysCV/sam-pt.

English

The Segment Anything Model (SAM) has established itself as a powerful zero-shot image segmentation model, employing interactive prompts such as points to generate masks. This paper presents SAM-PT, a method extending SAM's capability to tracking and segmenting anything in dynamic videos. SAM-PT leverages robust and sparse point selection and propagation techniques for mask generation, demonstrating that a SAM-based segmentation tracker can yield strong zero-shot performance across popular video object segmentation benchmarks, including DAVIS, YouTube-VOS, and MOSE. Compared to traditional object-centric mask propagation strategies, we uniquely use point propagation to exploit local structure information that is agnostic to object semantics. We highlight the merits of point-based tracking through direct evaluation on the zero-shot open-world Unidentified Video Objects (UVO) benchmark. To further enhance our approach, we utilize K-Medoids clustering for point initialization and track both positive and negative points to clearly distinguish the target object. We also employ multiple mask decoding passes for mask refinement and devise a point re-initialization strategy to improve tracking accuracy. Our code integrates different point trackers and video segmentation benchmarks and will be released at https://github.com/SysCV/sam-pt.

Segment Anything Encuentra el Rastreo de Puntos

Segment Anything Meets Point Tracking

Resumen

Support