MambaEVT: Tracciamento Visivo di Oggetti basato su Flussi di Eventi utilizzando Modelli a Spazio di Stato
MambaEVT: Event Stream based Visual Object Tracking using State Space Model
August 20, 2024
Autori: Xiao Wang, Chao wang, Shiao Wang, Xixi Wang, Zhicheng Zhao, Lin Zhu, Bo Jiang
cs.AI
Abstract
Il tracciamento visivo basato su telecamere ad eventi ha attirato sempre più attenzione negli ultimi anni grazie al principio di imaging unico e ai vantaggi di basso consumo energetico, ampia gamma dinamica e risoluzione temporale densa. Gli attuali algoritmi di tracciamento basati su eventi stanno gradualmente raggiungendo i loro limiti di prestazione, a causa dell'utilizzo del Transformer visivo e del modello statico per la localizzazione dell'oggetto target. In questo articolo, proponiamo un nuovo framework di tracciamento visivo basato su Mamba che adotta il modello di spazio degli stati con complessità lineare come rete di base. Le regioni di ricerca e il modello target vengono inseriti nella rete Mamba visiva per l'estrazione simultanea delle caratteristiche e l'interazione. I token di output delle regioni di ricerca verranno inseriti nella testa di tracciamento per la localizzazione del target. Ancora più importante, consideriamo l'introduzione di una strategia di aggiornamento dinamico del modello nel framework di tracciamento utilizzando la rete Memory Mamba. Considerando la diversità dei campioni nella libreria dei modelli target e apportando opportuni aggiustamenti al modulo di memoria del modello, è possibile integrare un modello dinamico più efficace. La combinazione efficace di modelli dinamici e statici consente al nostro algoritmo di tracciamento basato su Mamba di raggiungere un buon equilibrio tra precisione e costo computazionale su più dataset su larga scala, tra cui EventVOT, VisEvent e FE240hz. Il codice sorgente sarà rilasciato su https://github.com/Event-AHU/MambaEVT.
English
Event camera-based visual tracking has drawn more and more attention in
recent years due to the unique imaging principle and advantages of low energy
consumption, high dynamic range, and dense temporal resolution. Current
event-based tracking algorithms are gradually hitting their performance
bottlenecks, due to the utilization of vision Transformer and the static
template for target object localization. In this paper, we propose a novel
Mamba-based visual tracking framework that adopts the state space model with
linear complexity as a backbone network. The search regions and target template
are fed into the vision Mamba network for simultaneous feature extraction and
interaction. The output tokens of search regions will be fed into the tracking
head for target localization. More importantly, we consider introducing a
dynamic template update strategy into the tracking framework using the Memory
Mamba network. By considering the diversity of samples in the target template
library and making appropriate adjustments to the template memory module, a
more effective dynamic template can be integrated. The effective combination of
dynamic and static templates allows our Mamba-based tracking algorithm to
achieve a good balance between accuracy and computational cost on multiple
large-scale datasets, including EventVOT, VisEvent, and FE240hz. The source
code will be released on https://github.com/Event-AHU/MambaEVT