ChatPaper.aiChatPaper

TAPFormer: Robuuste Willekeurige Puntvolging via Transiënte Asynchrone Fusie van Beelden en Events

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

March 5, 2026
Auteurs: Jiaxiong Liu, Zhen Tan, Jinpu Zhang, Yi Zhou, Hui Shen, Xieyuanli Chen, Dewen Hu
cs.AI

Samenvatting

Het volgen van willekeurige punten (TAP) is een fundamentele maar uitdagende taak in de computer vision, waarvoor hoge precisie en langetermijnredenering over beweging vereist zijn. Recente pogingen om RGB-frames en eventstromen te combineren tonen potentie, maar ze baseren zich doorgaans op synchrone of niet-adaptieve fusie, wat leidt tot temporele uitlijningproblemen en ernstige prestatievermindering wanneer één modaliteit faalt. Wij introduceren TAPFormer, een transformer-gebaseerd framework dat asynchrone, temporeel consistente fusie van frames en events uitvoert voor robuuste en hoogfrequente tracking van willekeurige punten. Onze belangrijkste innovatie is een Transient Asynchronous Fusion (TAF)-mechanisme, dat de temporele evolutie tussen discrete frames expliciet modelleert via continue event-updates, waardoor de kloof tussen frames met een lage snelheid en events met een hoge snelheid wordt overbrugd. Daarnaast past een Cross-modal Locally Weighted Fusion (CLWF)-module de ruimtelijke aandacht adaptief aan volgens de betrouwbaarheid van de modaliteit, wat resulteert in stabiele en onderscheidende kenmerken, zelfs onder onscherpe of zwakke belichtingsomstandigheden. Om onze aanpak onder realistische omstandigheden te evalueren, construeren we een nieuwe real-world frame-event TAP-dataset onder diverse belichtings- en bewegingsomstandigheden. Onze methode overtreft bestaande puntvolgers en behaalt een verbetering van 28,2% in de gemiddelde pixelfout binnen de drempelwaarde. Bovendien behaalt onze tracker op standaard puntvolgbenchmarks consistent de beste prestaties. Projectwebsite: tapformer.github.io
English
Tracking any point (TAP) is a fundamental yet challenging task in computer vision, requiring high precision and long-term motion reasoning. Recent attempts to combine RGB frames and event streams have shown promise, yet they typically rely on synchronous or non-adaptive fusion, leading to temporal misalignment and severe degradation when one modality fails. We introduce TAPFormer, a transformer-based framework that performs asynchronous temporal-consistent fusion of frames and events for robust and high-frequency arbitrary point tracking. Our key innovation is a Transient Asynchronous Fusion (TAF) mechanism, which explicitly models the temporal evolution between discrete frames through continuous event updates, bridging the gap between low-rate frames and high-rate events. In addition, a Cross-modal Locally Weighted Fusion (CLWF) module adaptively adjusts spatial attention according to modality reliability, yielding stable and discriminative features even under blur or low light. To evaluate our approach under realistic conditions, we construct a novel real-world frame-event TAP dataset under diverse illumination and motion conditions. Our method outperforms existing point trackers, achieving a 28.2% improvement in average pixel error within threshold. Moreover, on standard point tracking benchmarks, our tracker consistently achieves the best performance. Project website: tapformer.github.io
PDF12March 26, 2026