TAPFormer: Tracciamento Robusto di Punti Arbitrari Tramite Fusione Asincrona Transiente di Frame ed Eventi
TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events
March 5, 2026
Autori: Jiaxiong Liu, Zhen Tan, Jinpu Zhang, Yi Zhou, Hui Shen, Xieyuanli Chen, Dewen Hu
cs.AI
Abstract
Tracking any point (TAP) è un compito fondamentale ma impegnativo nella visione artificiale, che richiede alta precisione e ragionamento sul movimento a lungo termine. I recenti tentativi di combinare frame RGB e flussi di eventi hanno mostrato risultati promettenti, ma si basano tipicamente su fusioni sincrone o non adattative, portando a disallineamenti temporali e a un grave degrado delle prestazioni quando una modalità fallisce. Introduciamo TAPFormer, un framework basato su transformer che esegue una fusione asincrona e temporalmente coerente di frame ed eventi per un tracking robusto e ad alta frequenza di punti arbitrari. La nostra innovazione principale è un meccanismo di Transient Asynchronous Fusion (TAF), che modella esplicitamente l'evoluzione temporale tra frame discreti attraverso aggiornamenti continui degli eventi, colmando il divario tra frame a bassa frequenza ed eventi ad alta frequenza. Inoltre, un modulo di Cross-modal Locally Weighted Fusion (CLWF) regola in modo adattivo l'attenzione spaziale in base all'affidabilità della modalità, producendo feature stabili e discriminative anche in condizioni di sfocatura o scarsa illuminazione. Per valutare il nostro approccio in condizioni realistiche, abbiamo costruito un nuovo dataset TAP reale frame-eventi in diverse condizioni di illuminazione e movimento. Il nostro metodo supera i tracker di punti esistenti, ottenendo un miglioramento del 28,2% nell'errore medio dei pixel entro soglia. Inoltre, sui benchmark standard per il point tracking, il nostro tracker raggiunge costantemente le migliori prestazioni. Sito web del progetto: tapformer.github.io
English
Tracking any point (TAP) is a fundamental yet challenging task in computer vision, requiring high precision and long-term motion reasoning. Recent attempts to combine RGB frames and event streams have shown promise, yet they typically rely on synchronous or non-adaptive fusion, leading to temporal misalignment and severe degradation when one modality fails. We introduce TAPFormer, a transformer-based framework that performs asynchronous temporal-consistent fusion of frames and events for robust and high-frequency arbitrary point tracking. Our key innovation is a Transient Asynchronous Fusion (TAF) mechanism, which explicitly models the temporal evolution between discrete frames through continuous event updates, bridging the gap between low-rate frames and high-rate events. In addition, a Cross-modal Locally Weighted Fusion (CLWF) module adaptively adjusts spatial attention according to modality reliability, yielding stable and discriminative features even under blur or low light. To evaluate our approach under realistic conditions, we construct a novel real-world frame-event TAP dataset under diverse illumination and motion conditions. Our method outperforms existing point trackers, achieving a 28.2% improvement in average pixel error within threshold. Moreover, on standard point tracking benchmarks, our tracker consistently achieves the best performance. Project website: tapformer.github.io