Segment Anything Ontmoet Puntvolging

Samenvatting

Het Segment Anything Model (SAM) heeft zich gevestigd als een krachtig zero-shot beeldsegmentatiemodel, dat interactieve prompts zoals punten gebruikt om maskers te genereren. Dit artikel presenteert SAM-PT, een methode die de mogelijkheden van SAM uitbreidt naar het volgen en segmenteren van alles in dynamische video's. SAM-PT maakt gebruik van robuuste en spaarzame puntselectie- en propagatietechnieken voor maskergeneratie, en toont aan dat een op SAM gebaseerde segmentatietracker sterke zero-shot prestaties kan leveren op populaire video-objectsegmentatiebenchmarks, waaronder DAVIS, YouTube-VOS en MOSE. In vergelijking met traditionele objectgerichte maskerpropagatiestrategieën, gebruiken wij uniek puntpropagatie om lokale structuurinformatie te benutten die onafhankelijk is van objectsemantiek. Wij benadrukken de voordelen van puntgebaseerd volgen door directe evaluatie op de zero-shot open-world Unidentified Video Objects (UVO) benchmark. Om onze aanpak verder te verbeteren, gebruiken wij K-Medoids clustering voor puntinitialisatie en volgen wij zowel positieve als negatieve punten om het doelobject duidelijk te onderscheiden. Wij passen ook meerdere maskerdecoderingstappen toe voor maskerverfijning en ontwikkelen een puntherinitialisatiestrategie om de volgnauwkeurigheid te verbeteren. Onze code integreert verschillende puntvolgers en video-segmentatiebenchmarks en zal worden vrijgegeven op https://github.com/SysCV/sam-pt.

English

The Segment Anything Model (SAM) has established itself as a powerful zero-shot image segmentation model, employing interactive prompts such as points to generate masks. This paper presents SAM-PT, a method extending SAM's capability to tracking and segmenting anything in dynamic videos. SAM-PT leverages robust and sparse point selection and propagation techniques for mask generation, demonstrating that a SAM-based segmentation tracker can yield strong zero-shot performance across popular video object segmentation benchmarks, including DAVIS, YouTube-VOS, and MOSE. Compared to traditional object-centric mask propagation strategies, we uniquely use point propagation to exploit local structure information that is agnostic to object semantics. We highlight the merits of point-based tracking through direct evaluation on the zero-shot open-world Unidentified Video Objects (UVO) benchmark. To further enhance our approach, we utilize K-Medoids clustering for point initialization and track both positive and negative points to clearly distinguish the target object. We also employ multiple mask decoding passes for mask refinement and devise a point re-initialization strategy to improve tracking accuracy. Our code integrates different point trackers and video segmentation benchmarks and will be released at https://github.com/SysCV/sam-pt.

Segment Anything Ontmoet Puntvolging

Segment Anything Meets Point Tracking

Samenvatting

Support