ChatPaper.aiChatPaper

TAPNext: Tracciamento di Qualsiasi Punto (TAP) come Predizione del Token Successivo

TAPNext: Tracking Any Point (TAP) as Next Token Prediction

April 8, 2025
Autori: Artem Zholus, Carl Doersch, Yi Yang, Skanda Koppula, Viorica Patraucean, Xu Owen He, Ignacio Rocco, Mehdi S. M. Sajjadi, Sarath Chandar, Ross Goroshin
cs.AI

Abstract

Il tracciamento di qualsiasi punto (TAP) in un video è un problema complesso di visione artificiale con numerose applicazioni dimostrate in robotica, editing video e ricostruzione 3D. I metodi esistenti per il TAP si basano fortemente su bias induttivi ed euristiche specifiche per il tracciamento, limitandone la generalità e il potenziale di scalabilità. Per affrontare queste sfide, presentiamo TAPNext, un nuovo approccio che formula il TAP come decodifica sequenziale di token mascherati. Il nostro modello è causale, esegue il tracciamento in modo puramente online e rimuove i bias induttivi specifici per il tracciamento. Ciò consente a TAPNext di operare con una latenza minima ed elimina la necessità di finestre temporali richieste da molti tracker all'avanguardia. Nonostante la sua semplicità, TAPNext raggiunge una nuova performance di tracciamento all'avanguardia sia tra i tracker online che offline. Infine, presentiamo prove che molte euristiche ampiamente utilizzate nel tracciamento emergono naturalmente in TAPNext attraverso l'addestramento end-to-end.
English
Tracking Any Point (TAP) in a video is a challenging computer vision problem with many demonstrated applications in robotics, video editing, and 3D reconstruction. Existing methods for TAP rely heavily on complex tracking-specific inductive biases and heuristics, limiting their generality and potential for scaling. To address these challenges, we present TAPNext, a new approach that casts TAP as sequential masked token decoding. Our model is causal, tracks in a purely online fashion, and removes tracking-specific inductive biases. This enables TAPNext to run with minimal latency, and removes the temporal windowing required by many existing state of art trackers. Despite its simplicity, TAPNext achieves a new state-of-the-art tracking performance among both online and offline trackers. Finally, we present evidence that many widely used tracking heuristics emerge naturally in TAPNext through end-to-end training.

Summary

AI-Generated Summary

PDF52April 11, 2025