Segmentatie van Alles met Bewegings-, Geometrie- en Semantische Aanpassing voor Complex Niet-lineair Visueel Objectvolgen

Samenvatting

Traditionele methoden voor visuele objecttracking (VOT) zijn doorgaans afhankelijk van taakspecifiek gesuperviseerd trainen, wat hun generalisatie naar ongeziene objecten en uitdagende scenario's met afleidingen, occlusie en niet-lineaire bewegingen beperkt. Recente visuele funderingsmodellen, zoals SAM 2, leren sterke video-begripprioriteiten door grootschalige vooropleiding en bieden een veelbelovende basis voor het bouwen van robuustere en beter generaliseerbare trackers. Het direct toepassen van SAM 2 op VOT blijft echter suboptimaal, omdat het geen expliciete modellering van de bewegingsdynamiek van het doelwit of handhaving van geometrische en semantische consistentie over frames biedt, beide essentieel voor betrouwbare tracking. Om dit probleem aan te pakken, introduceren we SAMOSA, een nieuw trackingframework dat SAM 2 aanpast aan complexe VOT-scenario's door expliciet gebruik te maken van bewegings-, geometrische en semantische aanwijzingen. Concreet introduceren we een lichtgewicht niet-lineaire bewegingsvoorspeller om de dynamiek van het doelwit te modelleren en de maskerselectie en geheugenfiltering te sturen. Verder benutten we semantische aanwijzingen om verschuivingen van het doelwit te detecteren en te herstellen van trackingfouten, terwijl geometrische aanwijzingen worden geïntegreerd als structurele beperkingen om de trackingstabiliteit te verbeteren. Op deze manier overbrugt SAMOSA de kloof tussen de impliciete video-begripprioriteiten van SAM 2 en expliciete trackinggerichte modellering. Uitgebreide experimenten tonen aan dat SAMOSA consequent beter presteert dan state-of-the-art SAM 2-gebaseerde benaderingen op algemene benchmarks, sterkere generalisatie vertoont dan gesuperviseerde VOT-methoden en aanzienlijke winsten boekt op anti-UAV-datasets, die kenmerkend zijn voor complexe niet-lineaire bewegingsscenario's. Onze code is beschikbaar op https://github.com/DurYi/SAMOSA.

English

Traditional visual object tracking (VOT) methods typically rely on task-specific supervised training, limiting their generalization to unseen objects and challenging scenarios with distractors, occlusion, and nonlinear motion. Recent vision foundation models, exemplified by SAM 2, learn strong video understanding priors from large-scale pretraining and offer a promising foundation for building more robust and generalizable trackers. However, directly applying SAM 2 to VOT remains suboptimal, as it does not explicitly model target motion dynamics or enforce geometric and semantic consistency across frames, both of which are essential for reliable tracking. To address this issue, we propose SAMOSA, a new tracking framework that adapts SAM 2 to complex VOT scenarios by explicitly leveraging motion, geometry, and semantic cues. Specifically, we introduce a lightweight nonlinear motion predictor to model target dynamics and guide mask selection as well as memory filtering. We further exploit semantic cues to detect target shifts and recover from tracking failures, while geometric cues are incorporated as structural constraints to improve tracking stability. In this way, SAMOSA bridges the gap between the implicit video understanding prior of SAM 2 and explicit tracking-oriented modeling. Extensive experiments show that SAMOSA consistently outperforms state-of-the-art SAM 2--based approaches on general benchmarks, demonstrates stronger generalization than supervised VOT methods, and achieves substantial gains on anti-UAV datasets, which typify complex nonlinear motion scenarios. Our code is available at https://github.com/DurYi/SAMOSA.