Segment Anything Ontmoet Puntvolging
Segment Anything Meets Point Tracking
July 3, 2023
Auteurs: Frano Rajič, Lei Ke, Yu-Wing Tai, Chi-Keung Tang, Martin Danelljan, Fisher Yu
cs.AI
Samenvatting
Het Segment Anything Model (SAM) heeft zich gevestigd als een krachtig zero-shot beeldsegmentatiemodel, dat interactieve prompts zoals punten gebruikt om maskers te genereren. Dit artikel presenteert SAM-PT, een methode die de mogelijkheden van SAM uitbreidt naar het volgen en segmenteren van alles in dynamische video's. SAM-PT maakt gebruik van robuuste en spaarzame puntselectie- en propagatietechnieken voor maskergeneratie, en toont aan dat een op SAM gebaseerde segmentatietracker sterke zero-shot prestaties kan leveren op populaire video-objectsegmentatiebenchmarks, waaronder DAVIS, YouTube-VOS en MOSE. In vergelijking met traditionele objectgerichte maskerpropagatiestrategieën, gebruiken wij uniek puntpropagatie om lokale structuurinformatie te benutten die onafhankelijk is van objectsemantiek. Wij benadrukken de voordelen van puntgebaseerd volgen door directe evaluatie op de zero-shot open-world Unidentified Video Objects (UVO) benchmark. Om onze aanpak verder te verbeteren, gebruiken wij K-Medoids clustering voor puntinitialisatie en volgen wij zowel positieve als negatieve punten om het doelobject duidelijk te onderscheiden. Wij passen ook meerdere maskerdecoderingstappen toe voor maskerverfijning en ontwikkelen een puntherinitialisatiestrategie om de volgnauwkeurigheid te verbeteren. Onze code integreert verschillende puntvolgers en video-segmentatiebenchmarks en zal worden vrijgegeven op https://github.com/SysCV/sam-pt.
English
The Segment Anything Model (SAM) has established itself as a powerful
zero-shot image segmentation model, employing interactive prompts such as
points to generate masks. This paper presents SAM-PT, a method extending SAM's
capability to tracking and segmenting anything in dynamic videos. SAM-PT
leverages robust and sparse point selection and propagation techniques for mask
generation, demonstrating that a SAM-based segmentation tracker can yield
strong zero-shot performance across popular video object segmentation
benchmarks, including DAVIS, YouTube-VOS, and MOSE. Compared to traditional
object-centric mask propagation strategies, we uniquely use point propagation
to exploit local structure information that is agnostic to object semantics. We
highlight the merits of point-based tracking through direct evaluation on the
zero-shot open-world Unidentified Video Objects (UVO) benchmark. To further
enhance our approach, we utilize K-Medoids clustering for point initialization
and track both positive and negative points to clearly distinguish the target
object. We also employ multiple mask decoding passes for mask refinement and
devise a point re-initialization strategy to improve tracking accuracy. Our
code integrates different point trackers and video segmentation benchmarks and
will be released at https://github.com/SysCV/sam-pt.