SAMURAI: Adaptación del Modelo Segment Anything para el Seguimiento Visual Zero-Shot con Memoria Consciente del Movimiento

Resumen

El Modelo Segment Anything 2 (SAM 2) ha demostrado un rendimiento sólido en tareas de segmentación de objetos, pero enfrenta desafíos en el seguimiento visual de objetos, especialmente al gestionar escenas concurridas con objetos de movimiento rápido u ocultamiento propio. Además, el enfoque de memoria de ventana fija en el modelo original no considera la calidad de las memorias seleccionadas para condicionar las características de la imagen para el siguiente fotograma, lo que conduce a la propagación de errores en videos. Este artículo presenta SAMURAI, una adaptación mejorada de SAM 2 diseñada específicamente para el seguimiento visual de objetos. Al incorporar señales temporales de movimiento con el mecanismo propuesto de selección de memoria consciente del movimiento, SAMURAI predice eficazmente el movimiento del objeto y perfecciona la selección de máscaras, logrando un seguimiento robusto y preciso sin necesidad de volver a entrenar o ajustar finamente. SAMURAI opera en tiempo real y demuestra un sólido rendimiento de cero disparos en diversos conjuntos de datos de referencia, mostrando su capacidad de generalización sin ajuste fino. En las evaluaciones, SAMURAI logra mejoras significativas en la tasa de éxito y precisión sobre los rastreadores existentes, con un aumento del 7.1% en el AUC en LaSOT_{ext} y un aumento del 3.5% en AO en GOT-10k. Además, logra resultados competitivos en comparación con métodos totalmente supervisados en LaSOT, subrayando su robustez en escenarios de seguimiento complejos y su potencial para aplicaciones del mundo real en entornos dinámicos. El código y los resultados están disponibles en https://github.com/yangchris11/samurai.

English

The Segment Anything Model 2 (SAM 2) has demonstrated strong performance in object segmentation tasks but faces challenges in visual object tracking, particularly when managing crowded scenes with fast-moving or self-occluding objects. Furthermore, the fixed-window memory approach in the original model does not consider the quality of memories selected to condition the image features for the next frame, leading to error propagation in videos. This paper introduces SAMURAI, an enhanced adaptation of SAM 2 specifically designed for visual object tracking. By incorporating temporal motion cues with the proposed motion-aware memory selection mechanism, SAMURAI effectively predicts object motion and refines mask selection, achieving robust, accurate tracking without the need for retraining or fine-tuning. SAMURAI operates in real-time and demonstrates strong zero-shot performance across diverse benchmark datasets, showcasing its ability to generalize without fine-tuning. In evaluations, SAMURAI achieves significant improvements in success rate and precision over existing trackers, with a 7.1% AUC gain on LaSOT_{ext} and a 3.5% AO gain on GOT-10k. Moreover, it achieves competitive results compared to fully supervised methods on LaSOT, underscoring its robustness in complex tracking scenarios and its potential for real-world applications in dynamic environments. Code and results are available at https://github.com/yangchris11/samurai.

SAMURAI: Adaptación del Modelo Segment Anything para el Seguimiento Visual Zero-Shot con Memoria Consciente del Movimiento

SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory

Resumen

Support