TAPFormer: 프레임과 이벤트의 순간적 비동기 융합을 통한 강건한 임의 지점 추적
TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events
March 5, 2026
저자: Jiaxiong Liu, Zhen Tan, Jinpu Zhang, Yi Zhou, Hui Shen, Xieyuanli Chen, Dewen Hu
cs.AI
초록
임의의 점 추적(TAP)은 높은 정밀도와 장기적인 운동 추론을 요구하는 컴퓨터 비전의 기본적이면서도 어려운 과제입니다. 최근 RGB 프레임과 이벤트 스트림을 결합하려는 시도가 가능성을 보여주고 있지만, 대부분 동기적 또는 비적응적 융합에 의존하여 한 모달리티가 실패할 때 시간적 불일치와 심각한 성능 저하를 초래합니다. 우리는 강력하고 고주파 임의 점 추적을 위해 프레임과 이벤트를 비동기적이며 시간 일관성 있게 융합하는 트랜스포머 기반 프레임워크인 TAPFormer를 소개합니다. 우리의 핵심 혁신은 TAF 메커니즘으로, 연속적인 이벤트 업데이트를 통해 이산 프레임 간의 시간적 변화를 명시적으로 모델링하여 저속 프레임과 고속 이벤트 간의 격차를 해소합니다. 또한 CLWF 모듈은 모달리티 신뢰도에 따라 공간 주의를 적응적으로 조정하여 흐림이나 낮은 조도 조건에서도 안정적이고 판별력 있는 특징을 생성합니다. 실제 조건에서 접근법을 평가하기 위해 다양한 조명 및 운동 조건에서 새로운 실제 세계 프레임-이벤트 TAP 데이터셋을 구축했습니다. 우리 방법은 기존 점 추적기를 능가하며 임계값 내 평균 픽셀 오류에서 28.2%의 향상을 달성했습니다. 또한 표준 점 추적 벤치마크에서 우리의 추적기는 지속적으로 최고 성능을 달성했습니다. 프로젝트 웹사이트: tapformer.github.io
English
Tracking any point (TAP) is a fundamental yet challenging task in computer vision, requiring high precision and long-term motion reasoning. Recent attempts to combine RGB frames and event streams have shown promise, yet they typically rely on synchronous or non-adaptive fusion, leading to temporal misalignment and severe degradation when one modality fails. We introduce TAPFormer, a transformer-based framework that performs asynchronous temporal-consistent fusion of frames and events for robust and high-frequency arbitrary point tracking. Our key innovation is a Transient Asynchronous Fusion (TAF) mechanism, which explicitly models the temporal evolution between discrete frames through continuous event updates, bridging the gap between low-rate frames and high-rate events. In addition, a Cross-modal Locally Weighted Fusion (CLWF) module adaptively adjusts spatial attention according to modality reliability, yielding stable and discriminative features even under blur or low light. To evaluate our approach under realistic conditions, we construct a novel real-world frame-event TAP dataset under diverse illumination and motion conditions. Our method outperforms existing point trackers, achieving a 28.2% improvement in average pixel error within threshold. Moreover, on standard point tracking benchmarks, our tracker consistently achieves the best performance. Project website: tapformer.github.io