Segmentação de Qualquer Coisa com Adaptação de Movimento, Geometria e Semântica para Rastreamento de Objetos Visuais Não Lineares Complexos

Resumo

Métodos tradicionais de rastreamento visual de objetos (VOT) normalmente dependem de treinamento supervisionado específico para a tarefa, limitando sua generalização para objetos não vistos e cenários desafiadores com distratores, oclusão e movimento não linear. Modelos de base visual recentes, exemplificados pelo SAM 2, aprendem fortes prioridades de compreensão de vídeo a partir de pré-treinamento em larga escala e oferecem uma base promissora para construir rastreadores mais robustos e generalizáveis. No entanto, a aplicação direta do SAM 2 ao VOT permanece subótima, pois ele não modela explicitamente a dinâmica do movimento alvo nem impõe consistência geométrica e semântica entre quadros, ambas essenciais para um rastreamento confiável. Para resolver essa questão, propomos o SAMOSA, uma nova estrutura de rastreamento que adapta o SAM 2 a cenários complexos de VOT, explorando explicitamente pistas de movimento, geometria e semântica. Especificamente, introduzimos um preditor de movimento não linear leve para modelar a dinâmica alvo e orientar a seleção de máscaras, bem como a filtragem de memória. Exploramos ainda pistas semânticas para detectar mudanças no alvo e recuperar falhas de rastreamento, enquanto pistas geométricas são incorporadas como restrições estruturais para melhorar a estabilidade do rastreamento. Dessa forma, o SAMOSA preenche a lacuna entre a prioridade implícita de compreensão de vídeo do SAM 2 e a modelagem explícita orientada ao rastreamento. Experimentos extensivos mostram que o SAMOSA supera consistentemente as abordagens baseadas no SAM 2 mais avançadas em benchmarks gerais, demonstra maior generalização do que métodos supervisionados de VOT e alcança ganhos substanciais em conjuntos de dados anti-UAV, que tipificam cenários complexos de movimento não linear. Nosso código está disponível em https://github.com/DurYi/SAMOSA.

English

Traditional visual object tracking (VOT) methods typically rely on task-specific supervised training, limiting their generalization to unseen objects and challenging scenarios with distractors, occlusion, and nonlinear motion. Recent vision foundation models, exemplified by SAM 2, learn strong video understanding priors from large-scale pretraining and offer a promising foundation for building more robust and generalizable trackers. However, directly applying SAM 2 to VOT remains suboptimal, as it does not explicitly model target motion dynamics or enforce geometric and semantic consistency across frames, both of which are essential for reliable tracking. To address this issue, we propose SAMOSA, a new tracking framework that adapts SAM 2 to complex VOT scenarios by explicitly leveraging motion, geometry, and semantic cues. Specifically, we introduce a lightweight nonlinear motion predictor to model target dynamics and guide mask selection as well as memory filtering. We further exploit semantic cues to detect target shifts and recover from tracking failures, while geometric cues are incorporated as structural constraints to improve tracking stability. In this way, SAMOSA bridges the gap between the implicit video understanding prior of SAM 2 and explicit tracking-oriented modeling. Extensive experiments show that SAMOSA consistently outperforms state-of-the-art SAM 2--based approaches on general benchmarks, demonstrates stronger generalization than supervised VOT methods, and achieves substantial gains on anti-UAV datasets, which typify complex nonlinear motion scenarios. Our code is available at https://github.com/DurYi/SAMOSA.