TAPNext: 任意の点追跡 (TAP) を次のトークン予測として実現
TAPNext: Tracking Any Point (TAP) as Next Token Prediction
April 8, 2025
著者: Artem Zholus, Carl Doersch, Yi Yang, Skanda Koppula, Viorica Patraucean, Xu Owen He, Ignacio Rocco, Mehdi S. M. Sajjadi, Sarath Chandar, Ross Goroshin
cs.AI
要旨
ビデオ内の任意の点を追跡するTracking Any Point (TAP)は、ロボティクス、ビデオ編集、3D再構築など多くの応用が示されている難しいコンピュータビジョンの課題です。既存のTAP手法は、複雑な追跡固有の帰納的バイアスやヒューリスティックに大きく依存しており、その汎用性とスケーリングの可能性を制限しています。これらの課題に対処するため、我々はTAPNextを提案します。これはTAPを逐次的なマスクトークンデコーディングとして捉える新しいアプローチです。我々のモデルは因果的であり、純粋にオンライン方式で追跡を行い、追跡固有の帰納的バイアスを除去します。これにより、TAPNextは最小限の遅延で動作し、多くの既存の最先端トラッカーで必要とされる時間的なウィンドウ処理を不要にします。そのシンプルさにもかかわらず、TAPNextはオンラインおよびオフライントラッカーの両方において、新たな最先端の追跡性能を達成します。最後に、広く使われている多くの追跡ヒューリスティックが、TAPNextにおいてエンドツーエンドのトレーニングを通じて自然に現れることを示す証拠を提示します。
English
Tracking Any Point (TAP) in a video is a challenging computer vision problem
with many demonstrated applications in robotics, video editing, and 3D
reconstruction. Existing methods for TAP rely heavily on complex
tracking-specific inductive biases and heuristics, limiting their generality
and potential for scaling. To address these challenges, we present TAPNext, a
new approach that casts TAP as sequential masked token decoding. Our model is
causal, tracks in a purely online fashion, and removes tracking-specific
inductive biases. This enables TAPNext to run with minimal latency, and removes
the temporal windowing required by many existing state of art trackers. Despite
its simplicity, TAPNext achieves a new state-of-the-art tracking performance
among both online and offline trackers. Finally, we present evidence that many
widely used tracking heuristics emerge naturally in TAPNext through end-to-end
training.Summary
AI-Generated Summary