TAPFormer: Rastreamento Robusto de Pontos Arbitrários via Fusão Assíncrona Transitória de Quadros e Eventos

Resumo

O rastreamento de pontos arbitrários (TAP) é uma tarefa fundamental, mas desafiadora, na visão computacional, exigindo alta precisão e raciocínio de movimento de longo prazo. Tentativas recentes de combinar quadros RGB e fluxos de eventos mostraram-se promissoras, mas normalmente dependem de fusão síncrona ou não adaptativa, resultando em desalinhamento temporal e degradação severa quando uma modalidade falha. Apresentamos o TAPFormer, uma arquitetura baseada em transformers que realiza uma fusão temporalmente consistente e assíncrona de quadros e eventos para um rastreamento robusto e de alta frequência de pontos arbitrários. Nossa principal inovação é um mecanismo de Fusão Assíncrona Transitória (TAF), que modela explicitamente a evolução temporal entre quadros discretos por meio de atualizações contínuas de eventos, preenchendo a lacuna entre quadros de baixa taxa e eventos de alta taxa. Além disso, um módulo de Fusão Ponderada Localmente entre Modalidades (CLWF) ajusta adaptativamente a atenção espacial de acordo com a confiabilidade da modalidade, produzindo características estáveis e discriminativas mesmo sob desfoque ou pouca luz. Para avaliar nossa abordagem em condições realistas, construímos um novo conjunto de dados TAP de quadros-eventos do mundo real sob diversas condições de iluminação e movimento. Nosso método supera os rastreadores de pontos existentes, alcançando uma melhoria de 28,2% no erro médio de pixel dentro do limite. Além disso, em benchmarks padrão de rastreamento de pontos, nosso rastreador alcança consistentemente o melhor desempenho. Site do projeto: tapformer.github.io

English

Tracking any point (TAP) is a fundamental yet challenging task in computer vision, requiring high precision and long-term motion reasoning. Recent attempts to combine RGB frames and event streams have shown promise, yet they typically rely on synchronous or non-adaptive fusion, leading to temporal misalignment and severe degradation when one modality fails. We introduce TAPFormer, a transformer-based framework that performs asynchronous temporal-consistent fusion of frames and events for robust and high-frequency arbitrary point tracking. Our key innovation is a Transient Asynchronous Fusion (TAF) mechanism, which explicitly models the temporal evolution between discrete frames through continuous event updates, bridging the gap between low-rate frames and high-rate events. In addition, a Cross-modal Locally Weighted Fusion (CLWF) module adaptively adjusts spatial attention according to modality reliability, yielding stable and discriminative features even under blur or low light. To evaluate our approach under realistic conditions, we construct a novel real-world frame-event TAP dataset under diverse illumination and motion conditions. Our method outperforms existing point trackers, achieving a 28.2% improvement in average pixel error within threshold. Moreover, on standard point tracking benchmarks, our tracker consistently achieves the best performance. Project website: tapformer.github.io

TAPFormer: Rastreamento Robusto de Pontos Arbitrários via Fusão Assíncrona Transitória de Quadros e Eventos

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

Resumo

Support