Segment Anything Rencontre le Suivi de Points
Segment Anything Meets Point Tracking
July 3, 2023
Auteurs: Frano Rajič, Lei Ke, Yu-Wing Tai, Chi-Keung Tang, Martin Danelljan, Fisher Yu
cs.AI
Résumé
Le modèle Segment Anything (SAM) s'est imposé comme un puissant modèle de segmentation d'images en mode zero-shot, utilisant des invites interactives telles que des points pour générer des masques. Cet article présente SAM-PT, une méthode étendant les capacités de SAM au suivi et à la segmentation d'objets dans des vidéos dynamiques. SAM-PT exploite des techniques robustes de sélection et de propagation de points épars pour la génération de masques, démontrant qu'un suiveur de segmentation basé sur SAM peut offrir des performances zero-shot solides sur des benchmarks populaires de segmentation d'objets vidéo, notamment DAVIS, YouTube-VOS et MOSE. Par rapport aux stratégies traditionnelles de propagation de masques centrées sur les objets, nous utilisons de manière unique la propagation de points pour exploiter les informations de structure locale, indépendantes de la sémantique des objets. Nous mettons en avant les avantages du suivi basé sur les points grâce à une évaluation directe sur le benchmark zero-shot en monde ouvert des objets vidéo non identifiés (UVO). Pour améliorer davantage notre approche, nous utilisons le clustering K-Medoids pour l'initialisation des points et suivons à la fois les points positifs et négatifs pour distinguer clairement l'objet cible. Nous employons également plusieurs passes de décodage de masques pour affiner les masques et concevons une stratégie de ré-initialisation des points pour améliorer la précision du suivi. Notre code intègre différents suiveurs de points et benchmarks de segmentation vidéo et sera disponible à l'adresse https://github.com/SysCV/sam-pt.
English
The Segment Anything Model (SAM) has established itself as a powerful
zero-shot image segmentation model, employing interactive prompts such as
points to generate masks. This paper presents SAM-PT, a method extending SAM's
capability to tracking and segmenting anything in dynamic videos. SAM-PT
leverages robust and sparse point selection and propagation techniques for mask
generation, demonstrating that a SAM-based segmentation tracker can yield
strong zero-shot performance across popular video object segmentation
benchmarks, including DAVIS, YouTube-VOS, and MOSE. Compared to traditional
object-centric mask propagation strategies, we uniquely use point propagation
to exploit local structure information that is agnostic to object semantics. We
highlight the merits of point-based tracking through direct evaluation on the
zero-shot open-world Unidentified Video Objects (UVO) benchmark. To further
enhance our approach, we utilize K-Medoids clustering for point initialization
and track both positive and negative points to clearly distinguish the target
object. We also employ multiple mask decoding passes for mask refinement and
devise a point re-initialization strategy to improve tracking accuracy. Our
code integrates different point trackers and video segmentation benchmarks and
will be released at https://github.com/SysCV/sam-pt.