ChatPaper.aiChatPaper

SAMURAI: Адаптация модели Segment Anything для нулевой визуальной трекинговой системы с учетом движения-зависимой памяти.

SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory

November 18, 2024
Авторы: Cheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang
cs.AI

Аннотация

Модель Segment Anything Model 2 (SAM 2) продемонстрировала высокую производительность в задачах сегментации объектов, но столкнулась с вызовами в визуальном отслеживании объектов, особенно при работе с переполненными сценами с быстро движущимися или само-закрывающимися объектами. Более того, подход с фиксированным окном памяти в оригинальной модели не учитывает качество выбранных воспоминаний для условия признаков изображения для следующего кадра, что приводит к распространению ошибок в видеороликах. В данной статье представлен SAMURAI, улучшенная адаптация SAM 2, специально разработанная для визуального отслеживания объектов. Путем интеграции временных признаков движения с предложенным механизмом выбора памяти, учитывающим движение, SAMURAI эффективно предсказывает движение объекта и улучшает выбор маски, достигая надежного и точного отслеживания без необходимости повторного обучения или настройки. SAMURAI работает в реальном времени и демонстрирует высокую производительность на нулевом обучении на различных наборах данных, показывая свою способность к обобщению без настройки. В оценках SAMURAI достигает значительного улучшения в показателях успешности и точности по сравнению с существующими трекерами, с приростом AUC на 7.1% на LaSOT_{ext} и AO на 3.5% на GOT-10k. Более того, он достигает конкурентоспособных результатов по сравнению с полностью надзираемыми методами на LaSOT, подчеркивая его устойчивость в сложных сценариях отслеживания и потенциал для применения в реальных условиях в динамичных средах. Код и результаты доступны по ссылке https://github.com/yangchris11/samurai.
English
The Segment Anything Model 2 (SAM 2) has demonstrated strong performance in object segmentation tasks but faces challenges in visual object tracking, particularly when managing crowded scenes with fast-moving or self-occluding objects. Furthermore, the fixed-window memory approach in the original model does not consider the quality of memories selected to condition the image features for the next frame, leading to error propagation in videos. This paper introduces SAMURAI, an enhanced adaptation of SAM 2 specifically designed for visual object tracking. By incorporating temporal motion cues with the proposed motion-aware memory selection mechanism, SAMURAI effectively predicts object motion and refines mask selection, achieving robust, accurate tracking without the need for retraining or fine-tuning. SAMURAI operates in real-time and demonstrates strong zero-shot performance across diverse benchmark datasets, showcasing its ability to generalize without fine-tuning. In evaluations, SAMURAI achieves significant improvements in success rate and precision over existing trackers, with a 7.1% AUC gain on LaSOT_{ext} and a 3.5% AO gain on GOT-10k. Moreover, it achieves competitive results compared to fully supervised methods on LaSOT, underscoring its robustness in complex tracking scenarios and its potential for real-world applications in dynamic environments. Code and results are available at https://github.com/yangchris11/samurai.

Summary

AI-Generated Summary

PDF193November 21, 2024