Segment Anything trifft auf Punktverfolgung

Zusammenfassung

Das Segment Anything Model (SAM) hat sich als leistungsstarkes Zero-Shot-Bildsegmentierungsmodell etabliert, das interaktive Prompts wie Punkte zur Erzeugung von Masken verwendet. Dieses Papier stellt SAM-PT vor, eine Methode, die die Fähigkeiten von SAM auf die Verfolgung und Segmentierung von Objekten in dynamischen Videos erweitert. SAM-PT nutzt robuste und spärliche Punktauswahl- und -propagierungstechniken zur Maskenerzeugung und zeigt, dass ein auf SAM basierender Segmentierungs-Tracker eine starke Zero-Shot-Leistung über beliebte Video-Objektsegmentierungs-Benchmarks wie DAVIS, YouTube-VOS und MOSE erzielen kann. Im Vergleich zu traditionellen objektzentrierten Maskenpropagierungsstrategien verwenden wir einzigartig die Punktpropagierung, um lokale Strukturinformationen zu nutzen, die unabhängig von der Objektsemantik sind. Wir heben die Vorteile der punktbasierten Verfolgung durch direkte Evaluierung auf dem Zero-Shot-Open-World-Benchmark Unidentified Video Objects (UVO) hervor. Um unseren Ansatz weiter zu verbessern, nutzen wir K-Medoids-Clustering für die Punktinitialisierung und verfolgen sowohl positive als auch negative Punkte, um das Zielobjekt klar zu unterscheiden. Wir verwenden außerdem mehrere Maskendecoding-Durchläufe zur Maskenverfeinerung und entwickeln eine Punkt-Reinitialisierungsstrategie, um die Verfolgungsgenauigkeit zu erhöhen. Unser Code integriert verschiedene Punkt-Tracker und Video-Segmentierungs-Benchmarks und wird unter https://github.com/SysCV/sam-pt veröffentlicht.

English

The Segment Anything Model (SAM) has established itself as a powerful zero-shot image segmentation model, employing interactive prompts such as points to generate masks. This paper presents SAM-PT, a method extending SAM's capability to tracking and segmenting anything in dynamic videos. SAM-PT leverages robust and sparse point selection and propagation techniques for mask generation, demonstrating that a SAM-based segmentation tracker can yield strong zero-shot performance across popular video object segmentation benchmarks, including DAVIS, YouTube-VOS, and MOSE. Compared to traditional object-centric mask propagation strategies, we uniquely use point propagation to exploit local structure information that is agnostic to object semantics. We highlight the merits of point-based tracking through direct evaluation on the zero-shot open-world Unidentified Video Objects (UVO) benchmark. To further enhance our approach, we utilize K-Medoids clustering for point initialization and track both positive and negative points to clearly distinguish the target object. We also employ multiple mask decoding passes for mask refinement and devise a point re-initialization strategy to improve tracking accuracy. Our code integrates different point trackers and video segmentation benchmarks and will be released at https://github.com/SysCV/sam-pt.

Segment Anything trifft auf Punktverfolgung

Segment Anything Meets Point Tracking

Zusammenfassung

Support