TAPNext: Tracking Any Point (TAP) als Vorhersage des nächsten Tokens
TAPNext: Tracking Any Point (TAP) as Next Token Prediction
April 8, 2025
Autoren: Artem Zholus, Carl Doersch, Yi Yang, Skanda Koppula, Viorica Patraucean, Xu Owen He, Ignacio Rocco, Mehdi S. M. Sajjadi, Sarath Chandar, Ross Goroshin
cs.AI
Zusammenfassung
Das Tracking beliebiger Punkte (Tracking Any Point, TAP) in einem Video ist ein anspruchsvolles Problem der Computer Vision mit vielen nachgewiesenen Anwendungen in der Robotik, Videobearbeitung und 3D-Rekonstruktion. Bisherige Methoden für TAP stützen sich stark auf komplexe, spezifische Induktionsannahmen und Heuristiken, was ihre Allgemeingültigkeit und Skalierbarkeit einschränkt. Um diese Herausforderungen zu bewältigen, stellen wir TAPNext vor, einen neuen Ansatz, der TAP als sequenzielle Dekodierung maskierter Tokens behandelt. Unser Modell ist kausal, arbeitet rein online und entfernt spezifische Induktionsannahmen für das Tracking. Dies ermöglicht es TAPNext, mit minimaler Latenz zu arbeiten, und eliminiert die zeitliche Fensterung, die von vielen aktuellen State-of-the-Art-Trackern benötigt wird. Trotz seiner Einfachheit erreicht TAPNext eine neue Bestleistung im Tracking sowohl bei Online- als auch Offline-Trackern. Schließlich zeigen wir, dass viele weit verbreitete Tracking-Heuristiken in TAPNext durch end-to-end-Training auf natürliche Weise entstehen.
English
Tracking Any Point (TAP) in a video is a challenging computer vision problem
with many demonstrated applications in robotics, video editing, and 3D
reconstruction. Existing methods for TAP rely heavily on complex
tracking-specific inductive biases and heuristics, limiting their generality
and potential for scaling. To address these challenges, we present TAPNext, a
new approach that casts TAP as sequential masked token decoding. Our model is
causal, tracks in a purely online fashion, and removes tracking-specific
inductive biases. This enables TAPNext to run with minimal latency, and removes
the temporal windowing required by many existing state of art trackers. Despite
its simplicity, TAPNext achieves a new state-of-the-art tracking performance
among both online and offline trackers. Finally, we present evidence that many
widely used tracking heuristics emerge naturally in TAPNext through end-to-end
training.Summary
AI-Generated Summary