SAMURAI: Adaptando o Modelo Segment Anything para Rastreamento Visual sem Supervisão com Memória Sensível ao Movimento
SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory
November 18, 2024
Autores: Cheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang
cs.AI
Resumo
O Modelo Segment Anything 2 (SAM 2) demonstrou um desempenho sólido em tarefas de segmentação de objetos, mas enfrenta desafios no rastreamento visual de objetos, especialmente ao lidar com cenas lotadas com objetos em movimento rápido ou auto-oclusivos. Além disso, a abordagem de memória de janela fixa no modelo original não considera a qualidade das memórias selecionadas para condicionar as características da imagem para o próximo quadro, levando à propagação de erros em vídeos. Este artigo apresenta o SAMURAI, uma adaptação aprimorada do SAM 2 especificamente projetada para o rastreamento visual de objetos. Ao incorporar pistas temporais de movimento com o mecanismo de seleção de memória consciente de movimento proposto, o SAMURAI prevê efetivamente o movimento do objeto e aprimora a seleção de máscara, alcançando um rastreamento robusto e preciso sem a necessidade de retrabalho ou ajuste fino. O SAMURAI opera em tempo real e demonstra um forte desempenho de zero-shot em diversos conjuntos de dados de referência, mostrando sua capacidade de generalização sem ajuste fino. Nas avaliações, o SAMURAI alcança melhorias significativas na taxa de sucesso e precisão em relação aos rastreadores existentes, com um ganho de 7,1% de AUC no LaSOT_{ext} e um ganho de 3,5% de AO no GOT-10k. Além disso, ele alcança resultados competitivos em comparação com métodos totalmente supervisionados no LaSOT, destacando sua robustez em cenários de rastreamento complexos e seu potencial para aplicações do mundo real em ambientes dinâmicos. O código e os resultados estão disponíveis em https://github.com/yangchris11/samurai.
English
The Segment Anything Model 2 (SAM 2) has demonstrated strong performance in
object segmentation tasks but faces challenges in visual object tracking,
particularly when managing crowded scenes with fast-moving or self-occluding
objects. Furthermore, the fixed-window memory approach in the original model
does not consider the quality of memories selected to condition the image
features for the next frame, leading to error propagation in videos. This paper
introduces SAMURAI, an enhanced adaptation of SAM 2 specifically designed for
visual object tracking. By incorporating temporal motion cues with the proposed
motion-aware memory selection mechanism, SAMURAI effectively predicts object
motion and refines mask selection, achieving robust, accurate tracking without
the need for retraining or fine-tuning. SAMURAI operates in real-time and
demonstrates strong zero-shot performance across diverse benchmark datasets,
showcasing its ability to generalize without fine-tuning. In evaluations,
SAMURAI achieves significant improvements in success rate and precision over
existing trackers, with a 7.1% AUC gain on LaSOT_{ext} and a 3.5% AO
gain on GOT-10k. Moreover, it achieves competitive results compared to fully
supervised methods on LaSOT, underscoring its robustness in complex tracking
scenarios and its potential for real-world applications in dynamic
environments. Code and results are available at
https://github.com/yangchris11/samurai.Summary
AI-Generated Summary