TAPFormer: Robuste Verfolgung beliebiger Punkte durch transiente asynchrone Fusion von Bildern und Events

Zusammenfassung

Die Verfolgung beliebiger Punkte (Tracking any Point, TAP) ist eine grundlegende, aber anspruchsvolle Aufgabe in der Computer Vision, die hohe Präzision und langfristige Bewegungsanalyse erfordert. Jüngste Versuche, RGB-Bilder und Ereignisströme (Events) zu kombinieren, waren vielversprechend, basieren jedoch typischerweise auf synchroner oder nicht-adaptiver Fusion, was zu zeitlichen Fehlanpassungen und erheblichen Leistungseinbußen führt, wenn eine Modalität versagt. Wir stellen TAPFormer vor, ein transformer-basiertes Framework, das eine asynchrone, zeitlich konsistente Fusion von Bildern und Events für eine robuste und hochfrequente Verfolgung beliebiger Punkte durchführt. Unsere zentrale Innovation ist ein Transient Asynchronous Fusion (TAF)-Mechanismus, der die zeitliche Entwicklung zwischen diskreten Bildern explizit durch kontinuierliche Event-Updates modelliert und so die Lücke zwischen niederfrequenten Bildern und hochfrequenten Events überbrückt. Zusätzlich passt ein Cross-modal Locally Weighted Fusion (CLWF)-Modul die räumliche Aufmerksamkeit adaptiv entsprechend der Zuverlässigkeit der Modalität an, was selbst bei Unschärfe oder geringer Beleuchtung stabile und diskriminative Merkmale liefert. Um unseren Ansatz unter realistischen Bedingungen zu evaluieren, haben wir einen neuartigen realweltlichen Frame-Event-TAP-Datensatz unter verschiedenen Beleuchtungs- und Bewegungsbedingungen erstellt. Unsere Methode übertrifft existierende Punkt-Tracker und erreicht eine Verbesserung des durchschnittlichen Pixel-Fehlers innerhalb eines Schwellenwerts um 28,2 %. Darüber hinaus erzielt unser Tracker auf standardisierten Punkt-Tracking-Benchmarks durchweg die beste Leistung. Projektwebsite: tapformer.github.io

English

Tracking any point (TAP) is a fundamental yet challenging task in computer vision, requiring high precision and long-term motion reasoning. Recent attempts to combine RGB frames and event streams have shown promise, yet they typically rely on synchronous or non-adaptive fusion, leading to temporal misalignment and severe degradation when one modality fails. We introduce TAPFormer, a transformer-based framework that performs asynchronous temporal-consistent fusion of frames and events for robust and high-frequency arbitrary point tracking. Our key innovation is a Transient Asynchronous Fusion (TAF) mechanism, which explicitly models the temporal evolution between discrete frames through continuous event updates, bridging the gap between low-rate frames and high-rate events. In addition, a Cross-modal Locally Weighted Fusion (CLWF) module adaptively adjusts spatial attention according to modality reliability, yielding stable and discriminative features even under blur or low light. To evaluate our approach under realistic conditions, we construct a novel real-world frame-event TAP dataset under diverse illumination and motion conditions. Our method outperforms existing point trackers, achieving a 28.2% improvement in average pixel error within threshold. Moreover, on standard point tracking benchmarks, our tracker consistently achieves the best performance. Project website: tapformer.github.io

TAPFormer: Robuste Verfolgung beliebiger Punkte durch transiente asynchrone Fusion von Bildern und Events

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

Zusammenfassung

Support