MambaEVT: Rastreamento Visual de Objetos baseado em Fluxo de Eventos usando Modelo de Espaço de Estados
MambaEVT: Event Stream based Visual Object Tracking using State Space Model
August 20, 2024
Autores: Xiao Wang, Chao wang, Shiao Wang, Xixi Wang, Zhicheng Zhao, Lin Zhu, Bo Jiang
cs.AI
Resumo
O rastreamento visual baseado em câmeras de eventos tem atraído cada vez mais atenção nos últimos anos devido ao princípio único de imagem e às vantagens de baixo consumo de energia, alta faixa dinâmica e alta resolução temporal densa. Os algoritmos de rastreamento baseados em eventos atuais estão gradualmente atingindo seus gargalos de desempenho, devido à utilização do Transformador de Visão e ao modelo de template estático para a localização do objeto alvo. Neste artigo, propomos um novo framework de rastreamento visual baseado em Mamba que adota o modelo de espaço de estados com complexidade linear como rede principal. As regiões de busca e o template alvo são inseridos na rede Mamba de visão para extração e interação de características simultâneas. Os tokens de saída das regiões de busca são inseridos na cabeça de rastreamento para localização do alvo. Mais importante ainda, consideramos a introdução de uma estratégia de atualização dinâmica de template no framework de rastreamento usando a rede Memory Mamba. Ao considerar a diversidade de amostras na biblioteca de templates alvo e fazer ajustes apropriados no módulo de memória do template, um template dinâmico mais eficaz pode ser integrado. A combinação eficaz de templates dinâmicos e estáticos permite que nosso algoritmo de rastreamento baseado em Mamba alcance um bom equilíbrio entre precisão e custo computacional em vários conjuntos de dados em larga escala, incluindo EventVOT, VisEvent e FE240hz. O código fonte será disponibilizado em https://github.com/Event-AHU/MambaEVT.
English
Event camera-based visual tracking has drawn more and more attention in
recent years due to the unique imaging principle and advantages of low energy
consumption, high dynamic range, and dense temporal resolution. Current
event-based tracking algorithms are gradually hitting their performance
bottlenecks, due to the utilization of vision Transformer and the static
template for target object localization. In this paper, we propose a novel
Mamba-based visual tracking framework that adopts the state space model with
linear complexity as a backbone network. The search regions and target template
are fed into the vision Mamba network for simultaneous feature extraction and
interaction. The output tokens of search regions will be fed into the tracking
head for target localization. More importantly, we consider introducing a
dynamic template update strategy into the tracking framework using the Memory
Mamba network. By considering the diversity of samples in the target template
library and making appropriate adjustments to the template memory module, a
more effective dynamic template can be integrated. The effective combination of
dynamic and static templates allows our Mamba-based tracking algorithm to
achieve a good balance between accuracy and computational cost on multiple
large-scale datasets, including EventVOT, VisEvent, and FE240hz. The source
code will be released on https://github.com/Event-AHU/MambaEVT