TAPFormer: Seguimiento Robusto de Puntos Arbitrarios mediante Fusión Asíncrona Transitoria de Fotogramas y Eventos
TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events
March 5, 2026
Autores: Jiaxiong Liu, Zhen Tan, Jinpu Zhang, Yi Zhou, Hui Shen, Xieyuanli Chen, Dewen Hu
cs.AI
Resumen
El seguimiento de puntos arbitrarios (TAP) es una tarea fundamental pero desafiante en visión por computadora, que requiere alta precisión y razonamiento de movimiento a largo plazo. Intentos recientes de combinar imágenes RGB y flujos de eventos han mostrado potencial, pero generalmente dependen de una fusión síncrona o no adaptativa, lo que genera desalineación temporal y degradación severa cuando una modalidad falla. Presentamos TAPFormer, un marco basado en transformadores que realiza una fusión asíncrona y temporalmente consistente de imágenes y eventos para un seguimiento robusto y de alta frecuencia de puntos arbitrarios. Nuestra innovación clave es un mecanismo de Fusión Asíncrona Transitoria (TAF), que modela explícitamente la evolución temporal entre imágenes discretas mediante actualizaciones continuas de eventos, cerrando la brecha entre imágenes de baja frecuencia y eventos de alta frecuencia. Además, un módulo de Fusión Ponderada Localmente Cross-modal (CLWF) ajusta adaptativamente la atención espacial según la confiabilidad de la modalidad, produciendo características estables y discriminativas incluso bajo desenfoque o poca luz. Para evaluar nuestro enfoque en condiciones realistas, construimos un novedoso conjunto de datos TAP de imágenes-eventos del mundo real bajo diversas condiciones de iluminación y movimiento. Nuestro método supera a los rastreadores de puntos existentes, logrando una mejora del 28.2% en el error promedio de píxeles dentro del umbral. Además, en benchmarks estándar de seguimiento de puntos, nuestro rastreador logra consistentemente el mejor rendimiento. Sitio web del proyecto: tapformer.github.io
English
Tracking any point (TAP) is a fundamental yet challenging task in computer vision, requiring high precision and long-term motion reasoning. Recent attempts to combine RGB frames and event streams have shown promise, yet they typically rely on synchronous or non-adaptive fusion, leading to temporal misalignment and severe degradation when one modality fails. We introduce TAPFormer, a transformer-based framework that performs asynchronous temporal-consistent fusion of frames and events for robust and high-frequency arbitrary point tracking. Our key innovation is a Transient Asynchronous Fusion (TAF) mechanism, which explicitly models the temporal evolution between discrete frames through continuous event updates, bridging the gap between low-rate frames and high-rate events. In addition, a Cross-modal Locally Weighted Fusion (CLWF) module adaptively adjusts spatial attention according to modality reliability, yielding stable and discriminative features even under blur or low light. To evaluate our approach under realistic conditions, we construct a novel real-world frame-event TAP dataset under diverse illumination and motion conditions. Our method outperforms existing point trackers, achieving a 28.2% improvement in average pixel error within threshold. Moreover, on standard point tracking benchmarks, our tracker consistently achieves the best performance. Project website: tapformer.github.io