Segment Anything con Adaptación de Movimiento, Geometría y Semántica para el Seguimiento Complejo No Lineal de Objetos Visuales

Resumen

Los métodos tradicionales de seguimiento de objetos visuales (VOT) suelen basarse en entrenamiento supervisado específico de la tarea, lo que limita su generalización a objetos no vistos y escenarios desafiantes con distractores, oclusiones y movimientos no lineales. Los modelos fundacionales recientes de visión, ejemplificados por SAM 2, aprenden fuertes conocimientos previos de comprensión de video a partir de un preentrenamiento a gran escala y ofrecen una base prometedora para construir rastreadores más robustos y generalizables. Sin embargo, la aplicación directa de SAM 2 al VOT sigue siendo subóptima, ya que no modela explícitamente la dinámica del movimiento del objetivo ni impone consistencia geométrica y semántica entre fotogramas, aspectos ambos esenciales para un seguimiento fiable. Para abordar este problema, proponemos SAMOSA, un nuevo marco de seguimiento que adapta SAM 2 a escenarios complejos de VOT aprovechando explícitamente señales de movimiento, geometría y semántica. Específicamente, introducimos un predictor de movimiento no lineal ligero para modelar la dinámica del objetivo y guiar la selección de máscaras, así como el filtrado de memoria. Además, explotamos señales semánticas para detectar cambios de objetivo y recuperarnos de fallos de seguimiento, mientras que las señales geométricas se incorporan como restricciones estructurales para mejorar la estabilidad del seguimiento. De esta manera, SAMOSA tiende un puente entre el conocimiento implícito de comprensión de video de SAM 2 y el modelado explícito orientado al seguimiento. Experimentos exhaustivos muestran que SAMOSA supera sistemáticamente a los enfoques de última generación basados en SAM 2 en referencias generales, demuestra una mayor generalización que los métodos de VOT supervisados y logra ganancias sustanciales en conjuntos de datos anti-UAV, que ejemplifican escenarios complejos de movimiento no lineal. Nuestro código está disponible en https://github.com/DurYi/SAMOSA.

English

Traditional visual object tracking (VOT) methods typically rely on task-specific supervised training, limiting their generalization to unseen objects and challenging scenarios with distractors, occlusion, and nonlinear motion. Recent vision foundation models, exemplified by SAM 2, learn strong video understanding priors from large-scale pretraining and offer a promising foundation for building more robust and generalizable trackers. However, directly applying SAM 2 to VOT remains suboptimal, as it does not explicitly model target motion dynamics or enforce geometric and semantic consistency across frames, both of which are essential for reliable tracking. To address this issue, we propose SAMOSA, a new tracking framework that adapts SAM 2 to complex VOT scenarios by explicitly leveraging motion, geometry, and semantic cues. Specifically, we introduce a lightweight nonlinear motion predictor to model target dynamics and guide mask selection as well as memory filtering. We further exploit semantic cues to detect target shifts and recover from tracking failures, while geometric cues are incorporated as structural constraints to improve tracking stability. In this way, SAMOSA bridges the gap between the implicit video understanding prior of SAM 2 and explicit tracking-oriented modeling. Extensive experiments show that SAMOSA consistently outperforms state-of-the-art SAM 2--based approaches on general benchmarks, demonstrates stronger generalization than supervised VOT methods, and achieves substantial gains on anti-UAV datasets, which typify complex nonlinear motion scenarios. Our code is available at https://github.com/DurYi/SAMOSA.