TAPFormer : Suivi robuste de points arbitraires via la fusion asynchrone transitoire d'images et d'événements
TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events
March 5, 2026
Auteurs: Jiaxiong Liu, Zhen Tan, Jinpu Zhang, Yi Zhou, Hui Shen, Xieyuanli Chen, Dewen Hu
cs.AI
Résumé
Le suivi de points arbitraires (TAP) est une tâche fondamentale mais difficile en vision par ordinateur, nécessitant une grande précision et un raisonnement motionnel à long terme. Les tentatives récentes de combinaison d'images RVB et de flux d'événements sont prometteuses, mais elles reposent généralement sur une fusion synchrone ou non adaptative, entraînant un désalignement temporel et une dégradation sévère lorsqu'une modalité est défaillante. Nous présentons TAPFormer, un framework basé sur un transformateur qui réalise une fusion temporellement cohérente et asynchrone des images et des événements pour un suivi robuste et haute fréquence de points arbitraires. Notre innovation clé est un mécanisme de Fusion Asynchrone Transitoire (TAF), qui modélise explicitement l'évolution temporelle entre les images discrètes via des mises à jour continues des événements, comblant ainsi l'écart entre les images à faible fréquence et les événements à haute fréquence. De plus, un module de Fusion Pondérée Localement Intermodale (CLWF) ajuste de manière adaptative l'attention spatiale selon la fiabilité des modalités, produisant des caractéristiques stables et discriminantes même en cas de flou ou de faible luminosité. Pour évaluer notre approche dans des conditions réalistes, nous avons constitué un nouveau jeu de données TAP réel combinant images et événements, sous diverses conditions d'éclairage et de mouvement. Notre méthode surpasse les trackeurs de points existants, obtenant une amélioration de 28,2% de l'erreur pixel moyenne dans le seuil. De plus, sur les benchmarks standards de suivi de points, notre tracker obtient systématiquement les meilleures performances. Site web du projet : tapformer.github.io
English
Tracking any point (TAP) is a fundamental yet challenging task in computer vision, requiring high precision and long-term motion reasoning. Recent attempts to combine RGB frames and event streams have shown promise, yet they typically rely on synchronous or non-adaptive fusion, leading to temporal misalignment and severe degradation when one modality fails. We introduce TAPFormer, a transformer-based framework that performs asynchronous temporal-consistent fusion of frames and events for robust and high-frequency arbitrary point tracking. Our key innovation is a Transient Asynchronous Fusion (TAF) mechanism, which explicitly models the temporal evolution between discrete frames through continuous event updates, bridging the gap between low-rate frames and high-rate events. In addition, a Cross-modal Locally Weighted Fusion (CLWF) module adaptively adjusts spatial attention according to modality reliability, yielding stable and discriminative features even under blur or low light. To evaluate our approach under realistic conditions, we construct a novel real-world frame-event TAP dataset under diverse illumination and motion conditions. Our method outperforms existing point trackers, achieving a 28.2% improvement in average pixel error within threshold. Moreover, on standard point tracking benchmarks, our tracker consistently achieves the best performance. Project website: tapformer.github.io