ChatPaper.aiChatPaper

TAPNext : Suivi de tout point (TAP) comme prédiction du prochain jeton

TAPNext: Tracking Any Point (TAP) as Next Token Prediction

April 8, 2025
Auteurs: Artem Zholus, Carl Doersch, Yi Yang, Skanda Koppula, Viorica Patraucean, Xu Owen He, Ignacio Rocco, Mehdi S. M. Sajjadi, Sarath Chandar, Ross Goroshin
cs.AI

Résumé

Le suivi de tout point (TAP) dans une vidéo est un problème complexe en vision par ordinateur, avec de nombreuses applications démontrées en robotique, montage vidéo et reconstruction 3D. Les méthodes existantes pour le TAP reposent fortement sur des biais inductifs et des heuristiques spécifiques au suivi, limitant ainsi leur généralité et leur potentiel de mise à l'échelle. Pour relever ces défis, nous présentons TAPNext, une nouvelle approche qui reformule le TAP comme un décodage séquentiel de tokens masqués. Notre modèle est causal, effectue le suivi de manière purement en ligne et élimine les biais inductifs spécifiques au suivi. Cela permet à TAPNext de fonctionner avec une latence minimale et supprime la nécessité de fenêtrage temporel requise par de nombreux trackers de pointe existants. Malgré sa simplicité, TAPNext atteint une performance de suivi inédite parmi les trackers en ligne et hors ligne. Enfin, nous montrons que de nombreuses heuristiques de suivi largement utilisées émergent naturellement dans TAPNext grâce à un apprentissage de bout en bout.
English
Tracking Any Point (TAP) in a video is a challenging computer vision problem with many demonstrated applications in robotics, video editing, and 3D reconstruction. Existing methods for TAP rely heavily on complex tracking-specific inductive biases and heuristics, limiting their generality and potential for scaling. To address these challenges, we present TAPNext, a new approach that casts TAP as sequential masked token decoding. Our model is causal, tracks in a purely online fashion, and removes tracking-specific inductive biases. This enables TAPNext to run with minimal latency, and removes the temporal windowing required by many existing state of art trackers. Despite its simplicity, TAPNext achieves a new state-of-the-art tracking performance among both online and offline trackers. Finally, we present evidence that many widely used tracking heuristics emerge naturally in TAPNext through end-to-end training.

Summary

AI-Generated Summary

PDF52April 11, 2025