Segment Anything встречается с отслеживанием точек
Segment Anything Meets Point Tracking
July 3, 2023
Авторы: Frano Rajič, Lei Ke, Yu-Wing Tai, Chi-Keung Tang, Martin Danelljan, Fisher Yu
cs.AI
Аннотация
Модель Segment Anything (SAM) зарекомендовала себя как мощная модель для сегментации изображений в режиме zero-shot, использующая интерактивные подсказки, такие как точки, для генерации масок. В данной статье представлен метод SAM-PT, расширяющий возможности SAM для отслеживания и сегментации объектов в динамических видео. SAM-PT использует надежные и разреженные методы выбора и распространения точек для генерации масок, демонстрируя, что трекер сегментации на основе SAM может достигать высоких результатов в режиме zero-shot на популярных бенчмарках для сегментации объектов в видео, включая DAVIS, YouTube-VOS и MOSE. В отличие от традиционных стратегий распространения масок, ориентированных на объекты, мы уникальным образом используем распространение точек для извлечения локальной структурной информации, независимой от семантики объектов. Мы подчеркиваем преимущества трекинга на основе точек через прямое тестирование на бенчмарке Unidentified Video Objects (UVO) в режиме zero-shot для открытого мира. Для дальнейшего улучшения нашего подхода мы применяем кластеризацию K-Medoids для инициализации точек и отслеживаем как положительные, так и отрицательные точки для четкого выделения целевого объекта. Мы также используем несколько проходов декодирования масок для их уточнения и разрабатываем стратегию повторной инициализации точек для повышения точности трекинга. Наш код интегрирует различные трекеры точек и бенчмарки для сегментации видео и будет опубликован по адресу https://github.com/SysCV/sam-pt.
English
The Segment Anything Model (SAM) has established itself as a powerful
zero-shot image segmentation model, employing interactive prompts such as
points to generate masks. This paper presents SAM-PT, a method extending SAM's
capability to tracking and segmenting anything in dynamic videos. SAM-PT
leverages robust and sparse point selection and propagation techniques for mask
generation, demonstrating that a SAM-based segmentation tracker can yield
strong zero-shot performance across popular video object segmentation
benchmarks, including DAVIS, YouTube-VOS, and MOSE. Compared to traditional
object-centric mask propagation strategies, we uniquely use point propagation
to exploit local structure information that is agnostic to object semantics. We
highlight the merits of point-based tracking through direct evaluation on the
zero-shot open-world Unidentified Video Objects (UVO) benchmark. To further
enhance our approach, we utilize K-Medoids clustering for point initialization
and track both positive and negative points to clearly distinguish the target
object. We also employ multiple mask decoding passes for mask refinement and
devise a point re-initialization strategy to improve tracking accuracy. Our
code integrates different point trackers and video segmentation benchmarks and
will be released at https://github.com/SysCV/sam-pt.