Segment Anything Encuentra el Rastreo de Puntos
Segment Anything Meets Point Tracking
July 3, 2023
Autores: Frano Rajič, Lei Ke, Yu-Wing Tai, Chi-Keung Tang, Martin Danelljan, Fisher Yu
cs.AI
Resumen
El Segment Anything Model (SAM) se ha consolidado como un potente modelo de segmentación de imágenes en modo zero-shot, utilizando indicaciones interactivas como puntos para generar máscaras. Este artículo presenta SAM-PT, un método que amplía la capacidad de SAM para rastrear y segmentar cualquier cosa en videos dinámicos. SAM-PT aprovecha técnicas robustas y dispersas de selección y propagación de puntos para la generación de máscaras, demostrando que un rastreador de segmentación basado en SAM puede ofrecer un rendimiento zero-shot sólido en benchmarks populares de segmentación de objetos en video, como DAVIS, YouTube-VOS y MOSE. En comparación con las estrategias tradicionales de propagación de máscaras centradas en objetos, utilizamos de manera única la propagación de puntos para explotar información de estructura local que es agnóstica a la semántica del objeto. Destacamos las ventajas del rastreo basado en puntos mediante una evaluación directa en el benchmark zero-shot de Objetos de Video No Identificados (UVO) en un entorno de mundo abierto. Para mejorar aún más nuestro enfoque, utilizamos clustering K-Medoids para la inicialización de puntos y rastreamos tanto puntos positivos como negativos para distinguir claramente el objeto objetivo. También empleamos múltiples pasadas de decodificación de máscaras para el refinamiento de las mismas y diseñamos una estrategia de reinicialización de puntos para mejorar la precisión del rastreo. Nuestro código integra diferentes rastreadores de puntos y benchmarks de segmentación de video, y será publicado en https://github.com/SysCV/sam-pt.
English
The Segment Anything Model (SAM) has established itself as a powerful
zero-shot image segmentation model, employing interactive prompts such as
points to generate masks. This paper presents SAM-PT, a method extending SAM's
capability to tracking and segmenting anything in dynamic videos. SAM-PT
leverages robust and sparse point selection and propagation techniques for mask
generation, demonstrating that a SAM-based segmentation tracker can yield
strong zero-shot performance across popular video object segmentation
benchmarks, including DAVIS, YouTube-VOS, and MOSE. Compared to traditional
object-centric mask propagation strategies, we uniquely use point propagation
to exploit local structure information that is agnostic to object semantics. We
highlight the merits of point-based tracking through direct evaluation on the
zero-shot open-world Unidentified Video Objects (UVO) benchmark. To further
enhance our approach, we utilize K-Medoids clustering for point initialization
and track both positive and negative points to clearly distinguish the target
object. We also employ multiple mask decoding passes for mask refinement and
devise a point re-initialization strategy to improve tracking accuracy. Our
code integrates different point trackers and video segmentation benchmarks and
will be released at https://github.com/SysCV/sam-pt.