TAPNext : Suivi de tout point (TAP) comme prédiction du prochain jeton
TAPNext: Tracking Any Point (TAP) as Next Token Prediction
April 8, 2025
Auteurs: Artem Zholus, Carl Doersch, Yi Yang, Skanda Koppula, Viorica Patraucean, Xu Owen He, Ignacio Rocco, Mehdi S. M. Sajjadi, Sarath Chandar, Ross Goroshin
cs.AI
Résumé
Le suivi de tout point (TAP) dans une vidéo est un problème complexe en vision par ordinateur, avec de nombreuses applications démontrées en robotique, montage vidéo et reconstruction 3D. Les méthodes existantes pour le TAP reposent fortement sur des biais inductifs et des heuristiques spécifiques au suivi, limitant ainsi leur généralité et leur potentiel de mise à l'échelle. Pour relever ces défis, nous présentons TAPNext, une nouvelle approche qui reformule le TAP comme un décodage séquentiel de tokens masqués. Notre modèle est causal, effectue le suivi de manière purement en ligne et élimine les biais inductifs spécifiques au suivi. Cela permet à TAPNext de fonctionner avec une latence minimale et supprime la nécessité de fenêtrage temporel requise par de nombreux trackers de pointe existants. Malgré sa simplicité, TAPNext atteint une performance de suivi inédite parmi les trackers en ligne et hors ligne. Enfin, nous montrons que de nombreuses heuristiques de suivi largement utilisées émergent naturellement dans TAPNext grâce à un apprentissage de bout en bout.
English
Tracking Any Point (TAP) in a video is a challenging computer vision problem
with many demonstrated applications in robotics, video editing, and 3D
reconstruction. Existing methods for TAP rely heavily on complex
tracking-specific inductive biases and heuristics, limiting their generality
and potential for scaling. To address these challenges, we present TAPNext, a
new approach that casts TAP as sequential masked token decoding. Our model is
causal, tracks in a purely online fashion, and removes tracking-specific
inductive biases. This enables TAPNext to run with minimal latency, and removes
the temporal windowing required by many existing state of art trackers. Despite
its simplicity, TAPNext achieves a new state-of-the-art tracking performance
among both online and offline trackers. Finally, we present evidence that many
widely used tracking heuristics emerge naturally in TAPNext through end-to-end
training.Summary
AI-Generated Summary