Segment Anything с адаптацией по движению, геометрии и семантике для отслеживания сложных нелинейных визуальных объектов

Аннотация

Традиционные методы визуального отслеживания объектов (VOT) обычно полагаются на целевую контролируемую предобучку, что ограничивает их обобщение на невидимые объекты и сложные сценарии с помехами, окклюзией и нелинейным движением. Недавние фундаментальные модели компьютерного зрения, например SAM 2, изучают сильные априорные знания о понимании видео в ходе крупномасштабного предобучения и предлагают многообещающую основу для создания более устойчивых и обобщаемых трекеров. Однако прямое применение SAM 2 к VOT остаётся неоптимальным, так как эта модель не моделирует явно динамику движения цели, а также не обеспечивает геометрическую и семантическую согласованность между кадрами — оба аспекта необходимы для надёжного отслеживания. Для решения этой проблемы мы предлагаем SAMOSA — новую структуру отслеживания, которая адаптирует SAM 2 к сложным сценариям VOT путём явного использования признаков движения, геометрии и семантики. В частности, мы вводим лёгкий нелинейный предиктор движения для моделирования динамики цели и управления выбором масок, а также фильтрацией памяти. Мы дополнительно используем семантические признаки для обнаружения смещений цели и восстановления после сбоев отслеживания, тогда как геометрические признаки включаются в качестве структурных ограничений для повышения стабильности отслеживания. Таким образом, SAMOSA устраняет разрыв между неявным априорным знанием о понимании видео, заложенным в SAM 2, и явным моделированием, ориентированным на отслеживание. Обширные эксперименты показывают, что SAMOSA стабильно превосходит современные подходы на основе SAM 2 на общих тестовых наборах, демонстрирует более сильное обобщение по сравнению с контролируемыми методами VOT и достигает значительного улучшения на наборах данных anti-UAV, которые типичны для сценариев сложного нелинейного движения. Наш код доступен по адресу https://github.com/DurYi/SAMOSA.

English

Traditional visual object tracking (VOT) methods typically rely on task-specific supervised training, limiting their generalization to unseen objects and challenging scenarios with distractors, occlusion, and nonlinear motion. Recent vision foundation models, exemplified by SAM 2, learn strong video understanding priors from large-scale pretraining and offer a promising foundation for building more robust and generalizable trackers. However, directly applying SAM 2 to VOT remains suboptimal, as it does not explicitly model target motion dynamics or enforce geometric and semantic consistency across frames, both of which are essential for reliable tracking. To address this issue, we propose SAMOSA, a new tracking framework that adapts SAM 2 to complex VOT scenarios by explicitly leveraging motion, geometry, and semantic cues. Specifically, we introduce a lightweight nonlinear motion predictor to model target dynamics and guide mask selection as well as memory filtering. We further exploit semantic cues to detect target shifts and recover from tracking failures, while geometric cues are incorporated as structural constraints to improve tracking stability. In this way, SAMOSA bridges the gap between the implicit video understanding prior of SAM 2 and explicit tracking-oriented modeling. Extensive experiments show that SAMOSA consistently outperforms state-of-the-art SAM 2--based approaches on general benchmarks, demonstrates stronger generalization than supervised VOT methods, and achieves substantial gains on anti-UAV datasets, which typify complex nonlinear motion scenarios. Our code is available at https://github.com/DurYi/SAMOSA.