MambaEVT: Отслеживание визуальных объектов на основе потока событий с использованием модели пространства состояний
MambaEVT: Event Stream based Visual Object Tracking using State Space Model
August 20, 2024
Авторы: Xiao Wang, Chao wang, Shiao Wang, Xixi Wang, Zhicheng Zhao, Lin Zhu, Bo Jiang
cs.AI
Аннотация
Визуальное отслеживание на основе камеры событий привлекло все больше внимания в последние годы благодаря уникальному принципу изображения и преимуществам низкого энергопотребления, высокому динамическому диапазону и плотному временному разрешению. Нынешние алгоритмы визуального отслеживания на основе событий постепенно достигают своих производительностных узких мест из-за использования видеотрансформера и статического шаблона для локализации целевого объекта. В данной статье мы предлагаем новую концепцию визуального отслеживания на основе Mamba, которая принимает модель пространства состояний с линейной сложностью в качестве основной сети. Области поиска и целевой шаблон подаются на вход визионной сети Mamba для одновременного извлечения признаков и взаимодействия. Выходные токены областей поиска подаются на голову отслеживания для локализации цели. Более того, мы рассматриваем введение стратегии динамического обновления шаблона в отслеживающую структуру с использованием сети Memory Mamba. Учитывая разнообразие образцов в библиотеке целевых шаблонов и внося соответствующие корректировки в модуль памяти шаблона, можно интегрировать более эффективный динамический шаблон. Эффективное сочетание динамических и статических шаблонов позволяет нашему алгоритму отслеживания на основе Mamba достигнуть хорошего баланса между точностью и вычислительной стоимостью на нескольких крупномасштабных наборах данных, включая EventVOT, VisEvent и FE240hz. Исходный код будет опубликован на https://github.com/Event-AHU/MambaEVT.
English
Event camera-based visual tracking has drawn more and more attention in
recent years due to the unique imaging principle and advantages of low energy
consumption, high dynamic range, and dense temporal resolution. Current
event-based tracking algorithms are gradually hitting their performance
bottlenecks, due to the utilization of vision Transformer and the static
template for target object localization. In this paper, we propose a novel
Mamba-based visual tracking framework that adopts the state space model with
linear complexity as a backbone network. The search regions and target template
are fed into the vision Mamba network for simultaneous feature extraction and
interaction. The output tokens of search regions will be fed into the tracking
head for target localization. More importantly, we consider introducing a
dynamic template update strategy into the tracking framework using the Memory
Mamba network. By considering the diversity of samples in the target template
library and making appropriate adjustments to the template memory module, a
more effective dynamic template can be integrated. The effective combination of
dynamic and static templates allows our Mamba-based tracking algorithm to
achieve a good balance between accuracy and computational cost on multiple
large-scale datasets, including EventVOT, VisEvent, and FE240hz. The source
code will be released on https://github.com/Event-AHU/MambaEVTSummary
AI-Generated Summary