SAMURAI: Adaptación del Modelo Segment Anything para el Seguimiento Visual Zero-Shot con Memoria Consciente del Movimiento
SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory
November 18, 2024
Autores: Cheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang
cs.AI
Resumen
El Modelo Segment Anything 2 (SAM 2) ha demostrado un rendimiento sólido en tareas de segmentación de objetos, pero enfrenta desafíos en el seguimiento visual de objetos, especialmente al gestionar escenas concurridas con objetos de movimiento rápido u ocultamiento propio. Además, el enfoque de memoria de ventana fija en el modelo original no considera la calidad de las memorias seleccionadas para condicionar las características de la imagen para el siguiente fotograma, lo que conduce a la propagación de errores en videos. Este artículo presenta SAMURAI, una adaptación mejorada de SAM 2 diseñada específicamente para el seguimiento visual de objetos. Al incorporar señales temporales de movimiento con el mecanismo propuesto de selección de memoria consciente del movimiento, SAMURAI predice eficazmente el movimiento del objeto y perfecciona la selección de máscaras, logrando un seguimiento robusto y preciso sin necesidad de volver a entrenar o ajustar finamente. SAMURAI opera en tiempo real y demuestra un sólido rendimiento de cero disparos en diversos conjuntos de datos de referencia, mostrando su capacidad de generalización sin ajuste fino. En las evaluaciones, SAMURAI logra mejoras significativas en la tasa de éxito y precisión sobre los rastreadores existentes, con un aumento del 7.1% en el AUC en LaSOT_{ext} y un aumento del 3.5% en AO en GOT-10k. Además, logra resultados competitivos en comparación con métodos totalmente supervisados en LaSOT, subrayando su robustez en escenarios de seguimiento complejos y su potencial para aplicaciones del mundo real en entornos dinámicos. El código y los resultados están disponibles en https://github.com/yangchris11/samurai.
English
The Segment Anything Model 2 (SAM 2) has demonstrated strong performance in
object segmentation tasks but faces challenges in visual object tracking,
particularly when managing crowded scenes with fast-moving or self-occluding
objects. Furthermore, the fixed-window memory approach in the original model
does not consider the quality of memories selected to condition the image
features for the next frame, leading to error propagation in videos. This paper
introduces SAMURAI, an enhanced adaptation of SAM 2 specifically designed for
visual object tracking. By incorporating temporal motion cues with the proposed
motion-aware memory selection mechanism, SAMURAI effectively predicts object
motion and refines mask selection, achieving robust, accurate tracking without
the need for retraining or fine-tuning. SAMURAI operates in real-time and
demonstrates strong zero-shot performance across diverse benchmark datasets,
showcasing its ability to generalize without fine-tuning. In evaluations,
SAMURAI achieves significant improvements in success rate and precision over
existing trackers, with a 7.1% AUC gain on LaSOT_{ext} and a 3.5% AO
gain on GOT-10k. Moreover, it achieves competitive results compared to fully
supervised methods on LaSOT, underscoring its robustness in complex tracking
scenarios and its potential for real-world applications in dynamic
environments. Code and results are available at
https://github.com/yangchris11/samurai.Summary
AI-Generated Summary