TAPNext: Tracciamento di Qualsiasi Punto (TAP) come Predizione del Token Successivo
TAPNext: Tracking Any Point (TAP) as Next Token Prediction
April 8, 2025
Autori: Artem Zholus, Carl Doersch, Yi Yang, Skanda Koppula, Viorica Patraucean, Xu Owen He, Ignacio Rocco, Mehdi S. M. Sajjadi, Sarath Chandar, Ross Goroshin
cs.AI
Abstract
Il tracciamento di qualsiasi punto (TAP) in un video è un problema complesso di visione artificiale con numerose applicazioni dimostrate in robotica, editing video e ricostruzione 3D. I metodi esistenti per il TAP si basano fortemente su bias induttivi ed euristiche specifiche per il tracciamento, limitandone la generalità e il potenziale di scalabilità. Per affrontare queste sfide, presentiamo TAPNext, un nuovo approccio che formula il TAP come decodifica sequenziale di token mascherati. Il nostro modello è causale, esegue il tracciamento in modo puramente online e rimuove i bias induttivi specifici per il tracciamento. Ciò consente a TAPNext di operare con una latenza minima ed elimina la necessità di finestre temporali richieste da molti tracker all'avanguardia. Nonostante la sua semplicità, TAPNext raggiunge una nuova performance di tracciamento all'avanguardia sia tra i tracker online che offline. Infine, presentiamo prove che molte euristiche ampiamente utilizzate nel tracciamento emergono naturalmente in TAPNext attraverso l'addestramento end-to-end.
English
Tracking Any Point (TAP) in a video is a challenging computer vision problem
with many demonstrated applications in robotics, video editing, and 3D
reconstruction. Existing methods for TAP rely heavily on complex
tracking-specific inductive biases and heuristics, limiting their generality
and potential for scaling. To address these challenges, we present TAPNext, a
new approach that casts TAP as sequential masked token decoding. Our model is
causal, tracks in a purely online fashion, and removes tracking-specific
inductive biases. This enables TAPNext to run with minimal latency, and removes
the temporal windowing required by many existing state of art trackers. Despite
its simplicity, TAPNext achieves a new state-of-the-art tracking performance
among both online and offline trackers. Finally, we present evidence that many
widely used tracking heuristics emerge naturally in TAPNext through end-to-end
training.Summary
AI-Generated Summary