ChatPaper.aiChatPaper

TAPFormer: フレームとイベントの過渡的非同期融合によるロバストな任意点トラッキング

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

March 5, 2026
著者: Jiaxiong Liu, Zhen Tan, Jinpu Zhang, Yi Zhou, Hui Shen, Xieyuanli Chen, Dewen Hu
cs.AI

要旨

Tracking any point (TAP) は、コンピュータビジョンにおける基本的でありながら困難なタスクであり、高精度な位置推定と長期的な動きの推論を必要とします。RGBフレームとイベントストリームを組み合わせる最近の試みは有望ですが、それらは通常、同期または非適応的な融合に依存しており、一方のモダリティが機能不全に陥った場合に時間的な不一致や深刻な性能劣化を引き起こします。本論文では、フレームとイベントの非同期で時間的に一貫した融合を実現し、ロバストかつ高頻度な任意点追跡を可能とする、TransformerベースのフレームワークであるTAPFormerを提案します。中核となる革新は、Transient Asynchronous Fusion (TAF) メカニズムです。これは、連続的なイベント更新を通じて離散フレーム間の時間的変化を明示的にモデル化し、低レートのフレームと高レートのイベントの間のギャップを埋めます。さらに、Cross-modal Locally Weighted Fusion (CLWF) モジュールは、モダリティの信頼性に応じて空間的注意を適応的に調整し、ブラーや低照度条件下でも安定した識別性の高い特徴を生成します。現実的な条件下での提案手法の評価のために、様々な照明と動きの条件下で新しい実世界のフレーム-イベントTAPデータセットを構築しました。提案手法は既存のポイントトラッカーを上回り、閾値内での平均ピクセル誤差において28.2%の改善を達成しました。さらに、標準的なポイントトラッキングベンチマークにおいても、提案トラッカーは一貫して最高の性能を達成しました。プロジェクトウェブサイト: tapformer.github.io
English
Tracking any point (TAP) is a fundamental yet challenging task in computer vision, requiring high precision and long-term motion reasoning. Recent attempts to combine RGB frames and event streams have shown promise, yet they typically rely on synchronous or non-adaptive fusion, leading to temporal misalignment and severe degradation when one modality fails. We introduce TAPFormer, a transformer-based framework that performs asynchronous temporal-consistent fusion of frames and events for robust and high-frequency arbitrary point tracking. Our key innovation is a Transient Asynchronous Fusion (TAF) mechanism, which explicitly models the temporal evolution between discrete frames through continuous event updates, bridging the gap between low-rate frames and high-rate events. In addition, a Cross-modal Locally Weighted Fusion (CLWF) module adaptively adjusts spatial attention according to modality reliability, yielding stable and discriminative features even under blur or low light. To evaluate our approach under realistic conditions, we construct a novel real-world frame-event TAP dataset under diverse illumination and motion conditions. Our method outperforms existing point trackers, achieving a 28.2% improvement in average pixel error within threshold. Moreover, on standard point tracking benchmarks, our tracker consistently achieves the best performance. Project website: tapformer.github.io
PDF12March 16, 2026