Segment Anything Encontra Rastreamento de Pontos
Segment Anything Meets Point Tracking
July 3, 2023
Autores: Frano Rajič, Lei Ke, Yu-Wing Tai, Chi-Keung Tang, Martin Danelljan, Fisher Yu
cs.AI
Resumo
O Segment Anything Model (SAM) estabeleceu-se como um poderoso modelo de segmentação de imagens em cenário zero-shot, empregando prompts interativos como pontos para gerar máscaras. Este artigo apresenta o SAM-PT, um método que estende a capacidade do SAM para rastrear e segmentar qualquer coisa em vídeos dinâmicos. O SAM-PT utiliza técnicas robustas de seleção e propagação de pontos esparsos para a geração de máscaras, demonstrando que um rastreador de segmentação baseado no SAM pode alcançar um forte desempenho zero-shot em benchmarks populares de segmentação de objetos em vídeo, incluindo DAVIS, YouTube-VOS e MOSE. Comparado às estratégias tradicionais de propagação de máscaras centradas em objetos, utilizamos exclusivamente a propagação de pontos para explorar informações de estrutura local que são agnósticas à semântica do objeto. Destacamos os méritos do rastreamento baseado em pontos através de avaliação direta no benchmark zero-shot de Objetos de Vídeo Não Identificados (UVO) em mundo aberto. Para aprimorar ainda mais nossa abordagem, utilizamos o agrupamento K-Medoids para inicialização de pontos e rastreamos tanto pontos positivos quanto negativos para distinguir claramente o objeto alvo. Também empregamos múltiplas passagens de decodificação de máscaras para refinamento e desenvolvemos uma estratégia de reinicialização de pontos para melhorar a precisão do rastreamento. Nosso código integra diferentes rastreadores de pontos e benchmarks de segmentação de vídeo e será disponibilizado em https://github.com/SysCV/sam-pt.
English
The Segment Anything Model (SAM) has established itself as a powerful
zero-shot image segmentation model, employing interactive prompts such as
points to generate masks. This paper presents SAM-PT, a method extending SAM's
capability to tracking and segmenting anything in dynamic videos. SAM-PT
leverages robust and sparse point selection and propagation techniques for mask
generation, demonstrating that a SAM-based segmentation tracker can yield
strong zero-shot performance across popular video object segmentation
benchmarks, including DAVIS, YouTube-VOS, and MOSE. Compared to traditional
object-centric mask propagation strategies, we uniquely use point propagation
to exploit local structure information that is agnostic to object semantics. We
highlight the merits of point-based tracking through direct evaluation on the
zero-shot open-world Unidentified Video Objects (UVO) benchmark. To further
enhance our approach, we utilize K-Medoids clustering for point initialization
and track both positive and negative points to clearly distinguish the target
object. We also employ multiple mask decoding passes for mask refinement and
devise a point re-initialization strategy to improve tracking accuracy. Our
code integrates different point trackers and video segmentation benchmarks and
will be released at https://github.com/SysCV/sam-pt.