Segment Anything avec adaptation de mouvement, géométrie et sémantique pour le suivi d'objets visuels non linéaires complexes

Résumé

Les méthodes traditionnelles de suivi d’objets visuels (VOT) reposent généralement sur un apprentissage supervisé spécifique à la tâche, ce qui limite leur généralisation à des objets non vus et à des scénarios difficiles comportant des distracteurs, des occultations et des mouvements non linéaires. Les récents modèles de fondation de la vision, illustrés par SAM 2, apprennent de fortes connaissances préalables en compréhension vidéo à partir d’un pré-entraînement à grande échelle et offrent une base prometteuse pour construire des traqueurs plus robustes et généralisables. Cependant, appliquer directement SAM 2 au VOT reste sous-optimal, car il ne modélise pas explicitement la dynamique du mouvement de la cible ni n’impose une cohérence géométrique et sémantique entre les images, deux éléments essentiels pour un suivi fiable. Pour remédier à ce problème, nous proposons SAMOSA, un nouveau cadre de suivi qui adapte SAM 2 à des scénarios VOT complexes en exploitant explicitement les indices de mouvement, de géométrie et de sémantique. Plus précisément, nous introduisons un prédicteur de mouvement non linéaire léger pour modéliser la dynamique de la cible et guider la sélection des masques ainsi que le filtrage de la mémoire. Nous exploitons en outre les indices sémantiques pour détecter les déplacements de la cible et récupérer après des échecs de suivi, tandis que les indices géométriques sont intégrés comme contraintes structurelles pour améliorer la stabilité du suivi. Ainsi, SAMOSA comble l’écart entre la connaissance vidéo implicite de SAM 2 et la modélisation explicite orientée vers le suivi. Des expériences approfondies montrent que SAMOSA surpasse systématiquement les approches de pointe basées sur SAM 2 sur des bancs d’essai généraux, démontre une meilleure généralisation que les méthodes VOT supervisées et réalise des gains substantiels sur les jeux de données anti-UAV, qui caractérisent des scénarios de mouvement non linéaire complexes. Notre code est disponible à l’adresse https://github.com/DurYi/SAMOSA.

English

Traditional visual object tracking (VOT) methods typically rely on task-specific supervised training, limiting their generalization to unseen objects and challenging scenarios with distractors, occlusion, and nonlinear motion. Recent vision foundation models, exemplified by SAM 2, learn strong video understanding priors from large-scale pretraining and offer a promising foundation for building more robust and generalizable trackers. However, directly applying SAM 2 to VOT remains suboptimal, as it does not explicitly model target motion dynamics or enforce geometric and semantic consistency across frames, both of which are essential for reliable tracking. To address this issue, we propose SAMOSA, a new tracking framework that adapts SAM 2 to complex VOT scenarios by explicitly leveraging motion, geometry, and semantic cues. Specifically, we introduce a lightweight nonlinear motion predictor to model target dynamics and guide mask selection as well as memory filtering. We further exploit semantic cues to detect target shifts and recover from tracking failures, while geometric cues are incorporated as structural constraints to improve tracking stability. In this way, SAMOSA bridges the gap between the implicit video understanding prior of SAM 2 and explicit tracking-oriented modeling. Extensive experiments show that SAMOSA consistently outperforms state-of-the-art SAM 2--based approaches on general benchmarks, demonstrates stronger generalization than supervised VOT methods, and achieves substantial gains on anti-UAV datasets, which typify complex nonlinear motion scenarios. Our code is available at https://github.com/DurYi/SAMOSA.