MambaEVT : Suivi visuel d'objets basé sur le flux d'événements à l'aide d'un modèle d'espace d'états
MambaEVT: Event Stream based Visual Object Tracking using State Space Model
August 20, 2024
Auteurs: Xiao Wang, Chao wang, Shiao Wang, Xixi Wang, Zhicheng Zhao, Lin Zhu, Bo Jiang
cs.AI
Résumé
Le suivi visuel basé sur une caméra événementielle a attiré de plus en plus d'attention ces dernières années en raison du principe d'imagerie unique et des avantages en termes de faible consommation d'énergie, de plage dynamique élevée et de résolution temporelle dense. Les algorithmes actuels de suivi basés sur des événements atteignent progressivement leurs limites de performance, en raison de l'utilisation du Vision Transformer et du modèle de référence statique pour la localisation de l'objet cible. Dans cet article, nous proposons un nouveau cadre de suivi visuel basé sur Mamba qui adopte le modèle d'espace d'état avec une complexité linéaire comme réseau de base. Les régions de recherche et le modèle de référence de la cible sont introduits dans le réseau Vision Mamba pour une extraction de caractéristiques et une interaction simultanées. Les jetons de sortie des régions de recherche seront introduits dans la tête de suivi pour la localisation de la cible. Plus important encore, nous envisageons d'introduire une stratégie de mise à jour dynamique du modèle de référence dans le cadre de suivi en utilisant le réseau Memory Mamba. En tenant compte de la diversité des échantillons dans la bibliothèque de modèles de référence et en apportant des ajustements appropriés au module de mémoire du modèle de référence, un modèle de référence dynamique plus efficace peut être intégré. La combinaison efficace de modèles de référence dynamiques et statiques permet à notre algorithme de suivi basé sur Mamba d'atteindre un bon équilibre entre précision et coût computationnel sur plusieurs ensembles de données à grande échelle, notamment EventVOT, VisEvent et FE240hz. Le code source sera publié sur https://github.com/Event-AHU/MambaEVT.
English
Event camera-based visual tracking has drawn more and more attention in
recent years due to the unique imaging principle and advantages of low energy
consumption, high dynamic range, and dense temporal resolution. Current
event-based tracking algorithms are gradually hitting their performance
bottlenecks, due to the utilization of vision Transformer and the static
template for target object localization. In this paper, we propose a novel
Mamba-based visual tracking framework that adopts the state space model with
linear complexity as a backbone network. The search regions and target template
are fed into the vision Mamba network for simultaneous feature extraction and
interaction. The output tokens of search regions will be fed into the tracking
head for target localization. More importantly, we consider introducing a
dynamic template update strategy into the tracking framework using the Memory
Mamba network. By considering the diversity of samples in the target template
library and making appropriate adjustments to the template memory module, a
more effective dynamic template can be integrated. The effective combination of
dynamic and static templates allows our Mamba-based tracking algorithm to
achieve a good balance between accuracy and computational cost on multiple
large-scale datasets, including EventVOT, VisEvent, and FE240hz. The source
code will be released on https://github.com/Event-AHU/MambaEVTSummary
AI-Generated Summary