MambaEVT: Rastreamento Visual de Objetos baseado em Fluxo de Eventos usando Modelo de Espaço de Estados

Resumo

O rastreamento visual baseado em câmeras de eventos tem atraído cada vez mais atenção nos últimos anos devido ao princípio único de imagem e às vantagens de baixo consumo de energia, alta faixa dinâmica e alta resolução temporal densa. Os algoritmos de rastreamento baseados em eventos atuais estão gradualmente atingindo seus gargalos de desempenho, devido à utilização do Transformador de Visão e ao modelo de template estático para a localização do objeto alvo. Neste artigo, propomos um novo framework de rastreamento visual baseado em Mamba que adota o modelo de espaço de estados com complexidade linear como rede principal. As regiões de busca e o template alvo são inseridos na rede Mamba de visão para extração e interação de características simultâneas. Os tokens de saída das regiões de busca são inseridos na cabeça de rastreamento para localização do alvo. Mais importante ainda, consideramos a introdução de uma estratégia de atualização dinâmica de template no framework de rastreamento usando a rede Memory Mamba. Ao considerar a diversidade de amostras na biblioteca de templates alvo e fazer ajustes apropriados no módulo de memória do template, um template dinâmico mais eficaz pode ser integrado. A combinação eficaz de templates dinâmicos e estáticos permite que nosso algoritmo de rastreamento baseado em Mamba alcance um bom equilíbrio entre precisão e custo computacional em vários conjuntos de dados em larga escala, incluindo EventVOT, VisEvent e FE240hz. O código fonte será disponibilizado em https://github.com/Event-AHU/MambaEVT.

English

Event camera-based visual tracking has drawn more and more attention in recent years due to the unique imaging principle and advantages of low energy consumption, high dynamic range, and dense temporal resolution. Current event-based tracking algorithms are gradually hitting their performance bottlenecks, due to the utilization of vision Transformer and the static template for target object localization. In this paper, we propose a novel Mamba-based visual tracking framework that adopts the state space model with linear complexity as a backbone network. The search regions and target template are fed into the vision Mamba network for simultaneous feature extraction and interaction. The output tokens of search regions will be fed into the tracking head for target localization. More importantly, we consider introducing a dynamic template update strategy into the tracking framework using the Memory Mamba network. By considering the diversity of samples in the target template library and making appropriate adjustments to the template memory module, a more effective dynamic template can be integrated. The effective combination of dynamic and static templates allows our Mamba-based tracking algorithm to achieve a good balance between accuracy and computational cost on multiple large-scale datasets, including EventVOT, VisEvent, and FE240hz. The source code will be released on https://github.com/Event-AHU/MambaEVT

MambaEVT: Rastreamento Visual de Objetos baseado em Fluxo de Eventos usando Modelo de Espaço de Estados

MambaEVT: Event Stream based Visual Object Tracking using State Space Model

Resumo

Support