MambaEVT: Visueel Object Tracking op Basis van Gebeurtenisstromen met een Toestandsruimtemodel

Samenvatting

Visuele tracking op basis van eventcamera's heeft de laatste jaren steeds meer aandacht gekregen vanwege het unieke beeldvormingsprincipe en de voordelen van laag energieverbruik, een hoog dynamisch bereik en een dichte temporele resolutie. Huidige op events gebaseerde trackingalgoritmen lopen echter geleidelijk aan tegen hun prestatiegrenzen aan, voornamelijk door het gebruik van vision Transformers en de statische sjabloon voor de lokalisatie van doelobjecten. In dit artikel stellen we een nieuw visueel trackingframework voor dat gebaseerd is op Mamba, waarbij het state space-model met lineaire complexiteit wordt gebruikt als backbone-netwerk. De zoekregio's en de doelsjabloon worden ingevoerd in het vision Mamba-netwerk voor gelijktijdige feature-extractie en interactie. De uitvoertokens van de zoekregio's worden vervolgens ingevoerd in de trackingkop voor de lokalisatie van het doel. Belangrijker is dat we overwegen om een dynamische sjabloonupdate-strategie te introduceren in het trackingframework met behulp van het Memory Mamba-netwerk. Door rekening te houden met de diversiteit van monsters in de doelsjabloonbibliotheek en door passende aanpassingen te maken aan de sjabloongeheugenmodule, kan een effectievere dynamische sjabloon worden geïntegreerd. De effectieve combinatie van dynamische en statische sjablonen stelt ons Mamba-gebaseerde trackingalgoritme in staat om een goede balans te bereiken tussen nauwkeurigheid en rekenkosten op meerdere grootschalige datasets, waaronder EventVOT, VisEvent en FE240hz. De broncode zal worden vrijgegeven op https://github.com/Event-AHU/MambaEVT.

English

Event camera-based visual tracking has drawn more and more attention in recent years due to the unique imaging principle and advantages of low energy consumption, high dynamic range, and dense temporal resolution. Current event-based tracking algorithms are gradually hitting their performance bottlenecks, due to the utilization of vision Transformer and the static template for target object localization. In this paper, we propose a novel Mamba-based visual tracking framework that adopts the state space model with linear complexity as a backbone network. The search regions and target template are fed into the vision Mamba network for simultaneous feature extraction and interaction. The output tokens of search regions will be fed into the tracking head for target localization. More importantly, we consider introducing a dynamic template update strategy into the tracking framework using the Memory Mamba network. By considering the diversity of samples in the target template library and making appropriate adjustments to the template memory module, a more effective dynamic template can be integrated. The effective combination of dynamic and static templates allows our Mamba-based tracking algorithm to achieve a good balance between accuracy and computational cost on multiple large-scale datasets, including EventVOT, VisEvent, and FE240hz. The source code will be released on https://github.com/Event-AHU/MambaEVT

MambaEVT: Visueel Object Tracking op Basis van Gebeurtenisstromen met een Toestandsruimtemodel

MambaEVT: Event Stream based Visual Object Tracking using State Space Model

Samenvatting

Summary

Support

Support