Segmentierung von Allem mit Bewegungs-, Geometrie- und semantischer Adaptation für komplexe nichtlineare visuelle Objektverfolgung

Zusammenfassung

Herkömmliche Methoden der visuellen Objektverfolgung (VOT) stützen sich typischerweise auf aufgabenspezifisches überwachtes Training, was ihre Generalisierbarkeit auf ungesehene Objekte und anspruchsvolle Szenarien mit Störfaktoren, Okklusion und nichtlinearer Bewegung einschränkt. Aktuelle visuelle Grundlagenmodelle, wie beispielsweise SAM 2, lernen durch großangelegtes Vortraining starke Prioritäten für das Videoverständnis und bieten eine vielversprechende Grundlage für die Entwicklung robusterer und generalisierbarer Tracker. Allerdings bleibt die direkte Anwendung von SAM 2 auf die VOT suboptimal, da es die Dynamik der Zielbewegung nicht explizit modelliert und keine geometrische und semantische Konsistenz zwischen den Bildern erzwingt, beides wesentliche Voraussetzungen für zuverlässiges Tracking. Um dieses Problem zu lösen, schlagen wir SAMOSA vor, ein neues Tracking-Framework, das SAM 2 an komplexe VOT-Szenarien anpasst, indem es explizit Bewegungs-, Geometrie- und semantische Hinweise nutzt. Konkret führen wir einen leichtgewichtigen nichtlinearen Bewegungsprädiktor ein, um die Zieldynamik zu modellieren und die Maskenauswahl sowie die Speicherfilterung zu steuern. Darüber hinaus nutzen wir semantische Hinweise, um Zielverschiebungen zu erkennen und sich von Tracking-Fehlern zu erholen, während geometrische Hinweise als strukturelle Einschränkungen einbezogen werden, um die Tracking-Stabilität zu verbessern. Auf diese Weise überbrückt SAMOSA die Kluft zwischen der impliziten Priorität des Videoverständnisses von SAM 2 und der expliziten trackingorientierten Modellierung. Umfangreiche Experimente zeigen, dass SAMOSA auf allgemeinen Benchmarks durchweg besser abschneidet als modernste auf SAM 2 basierende Ansätze, eine stärkere Generalisierung als überwachte VOT-Methoden aufweist und auf Anti-UAV-Datensätzen, die typische komplexe nichtlineare Bewegungsszenarien darstellen, erhebliche Verbesserungen erzielt. Unser Code ist verfügbar unter https://github.com/DurYi/SAMOSA.

English

Traditional visual object tracking (VOT) methods typically rely on task-specific supervised training, limiting their generalization to unseen objects and challenging scenarios with distractors, occlusion, and nonlinear motion. Recent vision foundation models, exemplified by SAM 2, learn strong video understanding priors from large-scale pretraining and offer a promising foundation for building more robust and generalizable trackers. However, directly applying SAM 2 to VOT remains suboptimal, as it does not explicitly model target motion dynamics or enforce geometric and semantic consistency across frames, both of which are essential for reliable tracking. To address this issue, we propose SAMOSA, a new tracking framework that adapts SAM 2 to complex VOT scenarios by explicitly leveraging motion, geometry, and semantic cues. Specifically, we introduce a lightweight nonlinear motion predictor to model target dynamics and guide mask selection as well as memory filtering. We further exploit semantic cues to detect target shifts and recover from tracking failures, while geometric cues are incorporated as structural constraints to improve tracking stability. In this way, SAMOSA bridges the gap between the implicit video understanding prior of SAM 2 and explicit tracking-oriented modeling. Extensive experiments show that SAMOSA consistently outperforms state-of-the-art SAM 2--based approaches on general benchmarks, demonstrates stronger generalization than supervised VOT methods, and achieves substantial gains on anti-UAV datasets, which typify complex nonlinear motion scenarios. Our code is available at https://github.com/DurYi/SAMOSA.