TAPFormer: Надежное отслеживание произвольных точек посредством транзиентного асинхронного слияния кадров и событий

Аннотация

Отслеживание произвольных точек (TAP) — фундаментальная, но сложная задача компьютерного зрения, требующая высокой точности и долгосрочного анализа движения. Недавние попытки комбинировать RGB-кадры и потоки событий показали перспективность, однако обычно они основываются на синхронном или неадаптивном слиянии, что приводит к временному рассогласованию и значительному ухудшению при отказе одной из модальностей. Мы представляем TAPFormer — трансформерную архитектуру, выполняющую асинхронное временно-согласованное слияние кадров и событий для робастного и высокочастотного отслеживания произвольных точек. Нашим ключевым нововведением является механизм транзиентного асинхронного слияния (TAF), который явно моделирует временную эволюцию между дискретными кадрами посредством непрерывных событийных обновлений, устраняя разрыв между низкочастотными кадрами и высокочастотными событиями. Кроме того, модуль кросс-модального локально-взвешенного слияния (CLWF) адаптивно регулирует пространственное внимание в соответствии с надежностью модальностей, формируя стабильные и дискриминативные признаки даже в условиях размытия или низкой освещенности. Для оценки нашего подхода в реалистичных условиях мы создали новый набор данных TAP для кадров и событий в реальном мире при различных условиях освещения и движения. Наш метод превосходит существующие трекеры точек, демонстрируя улучшение средней ошибки в пикселях на 28.2% в пределах порога. Более того, на стандартных бенчмарках отслеживания точек наш трекер стабильно показывает наилучшие результаты. Сайт проекта: tapformer.github.io

English

Tracking any point (TAP) is a fundamental yet challenging task in computer vision, requiring high precision and long-term motion reasoning. Recent attempts to combine RGB frames and event streams have shown promise, yet they typically rely on synchronous or non-adaptive fusion, leading to temporal misalignment and severe degradation when one modality fails. We introduce TAPFormer, a transformer-based framework that performs asynchronous temporal-consistent fusion of frames and events for robust and high-frequency arbitrary point tracking. Our key innovation is a Transient Asynchronous Fusion (TAF) mechanism, which explicitly models the temporal evolution between discrete frames through continuous event updates, bridging the gap between low-rate frames and high-rate events. In addition, a Cross-modal Locally Weighted Fusion (CLWF) module adaptively adjusts spatial attention according to modality reliability, yielding stable and discriminative features even under blur or low light. To evaluate our approach under realistic conditions, we construct a novel real-world frame-event TAP dataset under diverse illumination and motion conditions. Our method outperforms existing point trackers, achieving a 28.2% improvement in average pixel error within threshold. Moreover, on standard point tracking benchmarks, our tracker consistently achieves the best performance. Project website: tapformer.github.io

TAPFormer: Надежное отслеживание произвольных точек посредством транзиентного асинхронного слияния кадров и событий

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

Аннотация

Support