MambaEVT: Seguimiento visual de objetos basado en flujos de eventos utilizando un Modelo de Espacio de Estados
MambaEVT: Event Stream based Visual Object Tracking using State Space Model
August 20, 2024
Autores: Xiao Wang, Chao wang, Shiao Wang, Xixi Wang, Zhicheng Zhao, Lin Zhu, Bo Jiang
cs.AI
Resumen
El seguimiento visual basado en cámara de eventos ha atraído cada vez más atención en los últimos años debido al principio de imagen único y a las ventajas de bajo consumo de energía, alto rango dinámico y alta resolución temporal densa. Los algoritmos actuales de seguimiento basados en eventos están alcanzando gradualmente sus cuellos de botella de rendimiento, debido a la utilización del Transformador de Visión y la plantilla estática para la localización del objeto objetivo. En este documento, proponemos un nuevo marco de seguimiento visual basado en Mamba que adopta el modelo de espacio de estados con complejidad lineal como red principal. Las regiones de búsqueda y la plantilla objetivo se introducen en la red Mamba de visión para la extracción de características e interacción simultáneas. Los tokens de salida de las regiones de búsqueda se introducirán en la cabeza de seguimiento para la localización del objetivo. Más importante aún, consideramos la introducción de una estrategia de actualización dinámica de plantillas en el marco de seguimiento utilizando la red Memory Mamba. Al considerar la diversidad de muestras en la biblioteca de plantillas objetivo y realizar ajustes apropiados en el módulo de memoria de plantillas, se puede integrar una plantilla dinámica más efectiva. La combinación efectiva de plantillas dinámicas y estáticas permite que nuestro algoritmo de seguimiento basado en Mamba logre un buen equilibrio entre precisión y costo computacional en múltiples conjuntos de datos a gran escala, incluidos EventVOT, VisEvent y FE240hz. El código fuente se publicará en https://github.com/Event-AHU/MambaEVT.
English
Event camera-based visual tracking has drawn more and more attention in
recent years due to the unique imaging principle and advantages of low energy
consumption, high dynamic range, and dense temporal resolution. Current
event-based tracking algorithms are gradually hitting their performance
bottlenecks, due to the utilization of vision Transformer and the static
template for target object localization. In this paper, we propose a novel
Mamba-based visual tracking framework that adopts the state space model with
linear complexity as a backbone network. The search regions and target template
are fed into the vision Mamba network for simultaneous feature extraction and
interaction. The output tokens of search regions will be fed into the tracking
head for target localization. More importantly, we consider introducing a
dynamic template update strategy into the tracking framework using the Memory
Mamba network. By considering the diversity of samples in the target template
library and making appropriate adjustments to the template memory module, a
more effective dynamic template can be integrated. The effective combination of
dynamic and static templates allows our Mamba-based tracking algorithm to
achieve a good balance between accuracy and computational cost on multiple
large-scale datasets, including EventVOT, VisEvent, and FE240hz. The source
code will be released on https://github.com/Event-AHU/MambaEVT