MambaEVT: Objektverfolgung in visuellen Ereignisströmen unter Verwendung eines Zustandsraummodells
MambaEVT: Event Stream based Visual Object Tracking using State Space Model
August 20, 2024
Autoren: Xiao Wang, Chao wang, Shiao Wang, Xixi Wang, Zhicheng Zhao, Lin Zhu, Bo Jiang
cs.AI
Zusammenfassung
Eventkamera-basiertes visuelles Tracking hat in den letzten Jahren aufgrund des einzigartigen Bildgebungsprinzips und der Vorteile von geringem Energieverbrauch, hohem Dynamikumfang und hoher zeitlicher Auflösung immer mehr Aufmerksamkeit erregt. Aktuelle ereignisbasierte Tracking-Algorithmen stoßen allmählich an ihre Leistungsgrenzen, aufgrund der Verwendung von Vision-Transformer und des statischen Templates zur Lokalisierung des Zielobjekts. In diesem Artikel schlagen wir ein neuartiges Mamba-basiertes visuelles Tracking-Framework vor, das das Zustandsraummodell mit linearer Komplexität als Backbone-Netzwerk verwendet. Die Suchbereiche und das Zieltemplate werden in das Vision-Mamba-Netzwerk eingespeist, um gleichzeitig Merkmalsextraktion und Interaktion durchzuführen. Die Ausgabetoken der Suchbereiche werden dem Tracking-Head zur Ziellokalisierung zugeführt. Darüber hinaus erwägen wir die Einführung einer dynamischen Template-Aktualisierungsstrategie in das Tracking-Framework unter Verwendung des Memory-Mamba-Netzwerks. Durch Berücksichtigung der Vielfalt der Proben in der Zieltemplate-Bibliothek und durch geeignete Anpassungen des Template-Speichermoduls kann ein effektiveres dynamisches Template integriert werden. Die effektive Kombination von dynamischen und statischen Templates ermöglicht es unserem Mamba-basierten Tracking-Algorithmus, auf mehreren groß angelegten Datensätzen, einschließlich EventVOT, VisEvent und FE240hz, ein gutes Gleichgewicht zwischen Genauigkeit und Rechenleistung zu erreichen. Der Quellcode wird auf https://github.com/Event-AHU/MambaEVT veröffentlicht.
English
Event camera-based visual tracking has drawn more and more attention in
recent years due to the unique imaging principle and advantages of low energy
consumption, high dynamic range, and dense temporal resolution. Current
event-based tracking algorithms are gradually hitting their performance
bottlenecks, due to the utilization of vision Transformer and the static
template for target object localization. In this paper, we propose a novel
Mamba-based visual tracking framework that adopts the state space model with
linear complexity as a backbone network. The search regions and target template
are fed into the vision Mamba network for simultaneous feature extraction and
interaction. The output tokens of search regions will be fed into the tracking
head for target localization. More importantly, we consider introducing a
dynamic template update strategy into the tracking framework using the Memory
Mamba network. By considering the diversity of samples in the target template
library and making appropriate adjustments to the template memory module, a
more effective dynamic template can be integrated. The effective combination of
dynamic and static templates allows our Mamba-based tracking algorithm to
achieve a good balance between accuracy and computational cost on multiple
large-scale datasets, including EventVOT, VisEvent, and FE240hz. The source
code will be released on https://github.com/Event-AHU/MambaEVTSummary
AI-Generated Summary