MambaEVT: Visueel Object Tracking op Basis van Gebeurtenisstromen met een Toestandsruimtemodel
MambaEVT: Event Stream based Visual Object Tracking using State Space Model
August 20, 2024
Auteurs: Xiao Wang, Chao wang, Shiao Wang, Xixi Wang, Zhicheng Zhao, Lin Zhu, Bo Jiang
cs.AI
Samenvatting
Visuele tracking op basis van eventcamera's heeft de laatste jaren steeds meer aandacht gekregen vanwege het unieke beeldvormingsprincipe en de voordelen van laag energieverbruik, een hoog dynamisch bereik en een dichte temporele resolutie. Huidige op events gebaseerde trackingalgoritmen lopen echter geleidelijk aan tegen hun prestatiegrenzen aan, voornamelijk door het gebruik van vision Transformers en de statische sjabloon voor de lokalisatie van doelobjecten. In dit artikel stellen we een nieuw visueel trackingframework voor dat gebaseerd is op Mamba, waarbij het state space-model met lineaire complexiteit wordt gebruikt als backbone-netwerk. De zoekregio's en de doelsjabloon worden ingevoerd in het vision Mamba-netwerk voor gelijktijdige feature-extractie en interactie. De uitvoertokens van de zoekregio's worden vervolgens ingevoerd in de trackingkop voor de lokalisatie van het doel. Belangrijker is dat we overwegen om een dynamische sjabloonupdate-strategie te introduceren in het trackingframework met behulp van het Memory Mamba-netwerk. Door rekening te houden met de diversiteit van monsters in de doelsjabloonbibliotheek en door passende aanpassingen te maken aan de sjabloongeheugenmodule, kan een effectievere dynamische sjabloon worden geïntegreerd. De effectieve combinatie van dynamische en statische sjablonen stelt ons Mamba-gebaseerde trackingalgoritme in staat om een goede balans te bereiken tussen nauwkeurigheid en rekenkosten op meerdere grootschalige datasets, waaronder EventVOT, VisEvent en FE240hz. De broncode zal worden vrijgegeven op https://github.com/Event-AHU/MambaEVT.
English
Event camera-based visual tracking has drawn more and more attention in
recent years due to the unique imaging principle and advantages of low energy
consumption, high dynamic range, and dense temporal resolution. Current
event-based tracking algorithms are gradually hitting their performance
bottlenecks, due to the utilization of vision Transformer and the static
template for target object localization. In this paper, we propose a novel
Mamba-based visual tracking framework that adopts the state space model with
linear complexity as a backbone network. The search regions and target template
are fed into the vision Mamba network for simultaneous feature extraction and
interaction. The output tokens of search regions will be fed into the tracking
head for target localization. More importantly, we consider introducing a
dynamic template update strategy into the tracking framework using the Memory
Mamba network. By considering the diversity of samples in the target template
library and making appropriate adjustments to the template memory module, a
more effective dynamic template can be integrated. The effective combination of
dynamic and static templates allows our Mamba-based tracking algorithm to
achieve a good balance between accuracy and computational cost on multiple
large-scale datasets, including EventVOT, VisEvent, and FE240hz. The source
code will be released on https://github.com/Event-AHU/MambaEVTSummary
AI-Generated Summary