Segment Anything trifft auf Punktverfolgung
Segment Anything Meets Point Tracking
July 3, 2023
Autoren: Frano Rajič, Lei Ke, Yu-Wing Tai, Chi-Keung Tang, Martin Danelljan, Fisher Yu
cs.AI
Zusammenfassung
Das Segment Anything Model (SAM) hat sich als leistungsstarkes Zero-Shot-Bildsegmentierungsmodell etabliert, das interaktive Prompts wie Punkte zur Erzeugung von Masken verwendet. Dieses Papier stellt SAM-PT vor, eine Methode, die die Fähigkeiten von SAM auf die Verfolgung und Segmentierung von Objekten in dynamischen Videos erweitert. SAM-PT nutzt robuste und spärliche Punktauswahl- und -propagierungstechniken zur Maskenerzeugung und zeigt, dass ein auf SAM basierender Segmentierungs-Tracker eine starke Zero-Shot-Leistung über beliebte Video-Objektsegmentierungs-Benchmarks wie DAVIS, YouTube-VOS und MOSE erzielen kann. Im Vergleich zu traditionellen objektzentrierten Maskenpropagierungsstrategien verwenden wir einzigartig die Punktpropagierung, um lokale Strukturinformationen zu nutzen, die unabhängig von der Objektsemantik sind. Wir heben die Vorteile der punktbasierten Verfolgung durch direkte Evaluierung auf dem Zero-Shot-Open-World-Benchmark Unidentified Video Objects (UVO) hervor. Um unseren Ansatz weiter zu verbessern, nutzen wir K-Medoids-Clustering für die Punktinitialisierung und verfolgen sowohl positive als auch negative Punkte, um das Zielobjekt klar zu unterscheiden. Wir verwenden außerdem mehrere Maskendecoding-Durchläufe zur Maskenverfeinerung und entwickeln eine Punkt-Reinitialisierungsstrategie, um die Verfolgungsgenauigkeit zu erhöhen. Unser Code integriert verschiedene Punkt-Tracker und Video-Segmentierungs-Benchmarks und wird unter https://github.com/SysCV/sam-pt veröffentlicht.
English
The Segment Anything Model (SAM) has established itself as a powerful
zero-shot image segmentation model, employing interactive prompts such as
points to generate masks. This paper presents SAM-PT, a method extending SAM's
capability to tracking and segmenting anything in dynamic videos. SAM-PT
leverages robust and sparse point selection and propagation techniques for mask
generation, demonstrating that a SAM-based segmentation tracker can yield
strong zero-shot performance across popular video object segmentation
benchmarks, including DAVIS, YouTube-VOS, and MOSE. Compared to traditional
object-centric mask propagation strategies, we uniquely use point propagation
to exploit local structure information that is agnostic to object semantics. We
highlight the merits of point-based tracking through direct evaluation on the
zero-shot open-world Unidentified Video Objects (UVO) benchmark. To further
enhance our approach, we utilize K-Medoids clustering for point initialization
and track both positive and negative points to clearly distinguish the target
object. We also employ multiple mask decoding passes for mask refinement and
devise a point re-initialization strategy to improve tracking accuracy. Our
code integrates different point trackers and video segmentation benchmarks and
will be released at https://github.com/SysCV/sam-pt.