MambaEVT: Seguimiento visual de objetos basado en flujos de eventos utilizando un Modelo de Espacio de Estados

Resumen

El seguimiento visual basado en cámara de eventos ha atraído cada vez más atención en los últimos años debido al principio de imagen único y a las ventajas de bajo consumo de energía, alto rango dinámico y alta resolución temporal densa. Los algoritmos actuales de seguimiento basados en eventos están alcanzando gradualmente sus cuellos de botella de rendimiento, debido a la utilización del Transformador de Visión y la plantilla estática para la localización del objeto objetivo. En este documento, proponemos un nuevo marco de seguimiento visual basado en Mamba que adopta el modelo de espacio de estados con complejidad lineal como red principal. Las regiones de búsqueda y la plantilla objetivo se introducen en la red Mamba de visión para la extracción de características e interacción simultáneas. Los tokens de salida de las regiones de búsqueda se introducirán en la cabeza de seguimiento para la localización del objetivo. Más importante aún, consideramos la introducción de una estrategia de actualización dinámica de plantillas en el marco de seguimiento utilizando la red Memory Mamba. Al considerar la diversidad de muestras en la biblioteca de plantillas objetivo y realizar ajustes apropiados en el módulo de memoria de plantillas, se puede integrar una plantilla dinámica más efectiva. La combinación efectiva de plantillas dinámicas y estáticas permite que nuestro algoritmo de seguimiento basado en Mamba logre un buen equilibrio entre precisión y costo computacional en múltiples conjuntos de datos a gran escala, incluidos EventVOT, VisEvent y FE240hz. El código fuente se publicará en https://github.com/Event-AHU/MambaEVT.

English

Event camera-based visual tracking has drawn more and more attention in recent years due to the unique imaging principle and advantages of low energy consumption, high dynamic range, and dense temporal resolution. Current event-based tracking algorithms are gradually hitting their performance bottlenecks, due to the utilization of vision Transformer and the static template for target object localization. In this paper, we propose a novel Mamba-based visual tracking framework that adopts the state space model with linear complexity as a backbone network. The search regions and target template are fed into the vision Mamba network for simultaneous feature extraction and interaction. The output tokens of search regions will be fed into the tracking head for target localization. More importantly, we consider introducing a dynamic template update strategy into the tracking framework using the Memory Mamba network. By considering the diversity of samples in the target template library and making appropriate adjustments to the template memory module, a more effective dynamic template can be integrated. The effective combination of dynamic and static templates allows our Mamba-based tracking algorithm to achieve a good balance between accuracy and computational cost on multiple large-scale datasets, including EventVOT, VisEvent, and FE240hz. The source code will be released on https://github.com/Event-AHU/MambaEVT

MambaEVT: Seguimiento visual de objetos basado en flujos de eventos utilizando un Modelo de Espacio de Estados

MambaEVT: Event Stream based Visual Object Tracking using State Space Model

Resumen

Support