Segment Anything Encontra Rastreamento de Pontos

Resumo

O Segment Anything Model (SAM) estabeleceu-se como um poderoso modelo de segmentação de imagens em cenário zero-shot, empregando prompts interativos como pontos para gerar máscaras. Este artigo apresenta o SAM-PT, um método que estende a capacidade do SAM para rastrear e segmentar qualquer coisa em vídeos dinâmicos. O SAM-PT utiliza técnicas robustas de seleção e propagação de pontos esparsos para a geração de máscaras, demonstrando que um rastreador de segmentação baseado no SAM pode alcançar um forte desempenho zero-shot em benchmarks populares de segmentação de objetos em vídeo, incluindo DAVIS, YouTube-VOS e MOSE. Comparado às estratégias tradicionais de propagação de máscaras centradas em objetos, utilizamos exclusivamente a propagação de pontos para explorar informações de estrutura local que são agnósticas à semântica do objeto. Destacamos os méritos do rastreamento baseado em pontos através de avaliação direta no benchmark zero-shot de Objetos de Vídeo Não Identificados (UVO) em mundo aberto. Para aprimorar ainda mais nossa abordagem, utilizamos o agrupamento K-Medoids para inicialização de pontos e rastreamos tanto pontos positivos quanto negativos para distinguir claramente o objeto alvo. Também empregamos múltiplas passagens de decodificação de máscaras para refinamento e desenvolvemos uma estratégia de reinicialização de pontos para melhorar a precisão do rastreamento. Nosso código integra diferentes rastreadores de pontos e benchmarks de segmentação de vídeo e será disponibilizado em https://github.com/SysCV/sam-pt.

English

The Segment Anything Model (SAM) has established itself as a powerful zero-shot image segmentation model, employing interactive prompts such as points to generate masks. This paper presents SAM-PT, a method extending SAM's capability to tracking and segmenting anything in dynamic videos. SAM-PT leverages robust and sparse point selection and propagation techniques for mask generation, demonstrating that a SAM-based segmentation tracker can yield strong zero-shot performance across popular video object segmentation benchmarks, including DAVIS, YouTube-VOS, and MOSE. Compared to traditional object-centric mask propagation strategies, we uniquely use point propagation to exploit local structure information that is agnostic to object semantics. We highlight the merits of point-based tracking through direct evaluation on the zero-shot open-world Unidentified Video Objects (UVO) benchmark. To further enhance our approach, we utilize K-Medoids clustering for point initialization and track both positive and negative points to clearly distinguish the target object. We also employ multiple mask decoding passes for mask refinement and devise a point re-initialization strategy to improve tracking accuracy. Our code integrates different point trackers and video segmentation benchmarks and will be released at https://github.com/SysCV/sam-pt.

Segment Anything Encontra Rastreamento de Pontos

Segment Anything Meets Point Tracking

Resumo

Support