ChatPaper.aiChatPaper

MambaEVT: Objektverfolgung in visuellen Ereignisströmen unter Verwendung eines Zustandsraummodells

MambaEVT: Event Stream based Visual Object Tracking using State Space Model

August 20, 2024
Autoren: Xiao Wang, Chao wang, Shiao Wang, Xixi Wang, Zhicheng Zhao, Lin Zhu, Bo Jiang
cs.AI

Zusammenfassung

Eventkamera-basiertes visuelles Tracking hat in den letzten Jahren aufgrund des einzigartigen Bildgebungsprinzips und der Vorteile von geringem Energieverbrauch, hohem Dynamikumfang und hoher zeitlicher Auflösung immer mehr Aufmerksamkeit erregt. Aktuelle ereignisbasierte Tracking-Algorithmen stoßen allmählich an ihre Leistungsgrenzen, aufgrund der Verwendung von Vision-Transformer und des statischen Templates zur Lokalisierung des Zielobjekts. In diesem Artikel schlagen wir ein neuartiges Mamba-basiertes visuelles Tracking-Framework vor, das das Zustandsraummodell mit linearer Komplexität als Backbone-Netzwerk verwendet. Die Suchbereiche und das Zieltemplate werden in das Vision-Mamba-Netzwerk eingespeist, um gleichzeitig Merkmalsextraktion und Interaktion durchzuführen. Die Ausgabetoken der Suchbereiche werden dem Tracking-Head zur Ziellokalisierung zugeführt. Darüber hinaus erwägen wir die Einführung einer dynamischen Template-Aktualisierungsstrategie in das Tracking-Framework unter Verwendung des Memory-Mamba-Netzwerks. Durch Berücksichtigung der Vielfalt der Proben in der Zieltemplate-Bibliothek und durch geeignete Anpassungen des Template-Speichermoduls kann ein effektiveres dynamisches Template integriert werden. Die effektive Kombination von dynamischen und statischen Templates ermöglicht es unserem Mamba-basierten Tracking-Algorithmus, auf mehreren groß angelegten Datensätzen, einschließlich EventVOT, VisEvent und FE240hz, ein gutes Gleichgewicht zwischen Genauigkeit und Rechenleistung zu erreichen. Der Quellcode wird auf https://github.com/Event-AHU/MambaEVT veröffentlicht.
English
Event camera-based visual tracking has drawn more and more attention in recent years due to the unique imaging principle and advantages of low energy consumption, high dynamic range, and dense temporal resolution. Current event-based tracking algorithms are gradually hitting their performance bottlenecks, due to the utilization of vision Transformer and the static template for target object localization. In this paper, we propose a novel Mamba-based visual tracking framework that adopts the state space model with linear complexity as a backbone network. The search regions and target template are fed into the vision Mamba network for simultaneous feature extraction and interaction. The output tokens of search regions will be fed into the tracking head for target localization. More importantly, we consider introducing a dynamic template update strategy into the tracking framework using the Memory Mamba network. By considering the diversity of samples in the target template library and making appropriate adjustments to the template memory module, a more effective dynamic template can be integrated. The effective combination of dynamic and static templates allows our Mamba-based tracking algorithm to achieve a good balance between accuracy and computational cost on multiple large-scale datasets, including EventVOT, VisEvent, and FE240hz. The source code will be released on https://github.com/Event-AHU/MambaEVT

Summary

AI-Generated Summary

PDF72November 17, 2024