Segment Anything Rencontre le Suivi de Points

Résumé

Le modèle Segment Anything (SAM) s'est imposé comme un puissant modèle de segmentation d'images en mode zero-shot, utilisant des invites interactives telles que des points pour générer des masques. Cet article présente SAM-PT, une méthode étendant les capacités de SAM au suivi et à la segmentation d'objets dans des vidéos dynamiques. SAM-PT exploite des techniques robustes de sélection et de propagation de points épars pour la génération de masques, démontrant qu'un suiveur de segmentation basé sur SAM peut offrir des performances zero-shot solides sur des benchmarks populaires de segmentation d'objets vidéo, notamment DAVIS, YouTube-VOS et MOSE. Par rapport aux stratégies traditionnelles de propagation de masques centrées sur les objets, nous utilisons de manière unique la propagation de points pour exploiter les informations de structure locale, indépendantes de la sémantique des objets. Nous mettons en avant les avantages du suivi basé sur les points grâce à une évaluation directe sur le benchmark zero-shot en monde ouvert des objets vidéo non identifiés (UVO). Pour améliorer davantage notre approche, nous utilisons le clustering K-Medoids pour l'initialisation des points et suivons à la fois les points positifs et négatifs pour distinguer clairement l'objet cible. Nous employons également plusieurs passes de décodage de masques pour affiner les masques et concevons une stratégie de ré-initialisation des points pour améliorer la précision du suivi. Notre code intègre différents suiveurs de points et benchmarks de segmentation vidéo et sera disponible à l'adresse https://github.com/SysCV/sam-pt.

English

The Segment Anything Model (SAM) has established itself as a powerful zero-shot image segmentation model, employing interactive prompts such as points to generate masks. This paper presents SAM-PT, a method extending SAM's capability to tracking and segmenting anything in dynamic videos. SAM-PT leverages robust and sparse point selection and propagation techniques for mask generation, demonstrating that a SAM-based segmentation tracker can yield strong zero-shot performance across popular video object segmentation benchmarks, including DAVIS, YouTube-VOS, and MOSE. Compared to traditional object-centric mask propagation strategies, we uniquely use point propagation to exploit local structure information that is agnostic to object semantics. We highlight the merits of point-based tracking through direct evaluation on the zero-shot open-world Unidentified Video Objects (UVO) benchmark. To further enhance our approach, we utilize K-Medoids clustering for point initialization and track both positive and negative points to clearly distinguish the target object. We also employ multiple mask decoding passes for mask refinement and devise a point re-initialization strategy to improve tracking accuracy. Our code integrates different point trackers and video segmentation benchmarks and will be released at https://github.com/SysCV/sam-pt.

Segment Anything Rencontre le Suivi de Points

Segment Anything Meets Point Tracking

Résumé

Support