TAPNext: Het Volgen van Elk Punt (TAP) als Voorspelling van het Volgende Token
TAPNext: Tracking Any Point (TAP) as Next Token Prediction
April 8, 2025
Auteurs: Artem Zholus, Carl Doersch, Yi Yang, Skanda Koppula, Viorica Patraucean, Xu Owen He, Ignacio Rocco, Mehdi S. M. Sajjadi, Sarath Chandar, Ross Goroshin
cs.AI
Samenvatting
Het volgen van elk punt (TAP) in een video is een uitdagend computer vision-probleem met veel bewezen toepassingen in robotica, videobewerking en 3D-reconstructie. Bestaande methoden voor TAP zijn sterk afhankelijk van complexe, tracking-specifieke inductieve biases en heuristieken, wat hun algemeenheid en potentieel voor schaalbaarheid beperkt. Om deze uitdagingen aan te pakken, presenteren we TAPNext, een nieuwe aanpak die TAP behandelt als sequentiële gedecodeerde gemaskeerde tokens. Ons model is causaal, werkt volledig online en verwijdert tracking-specifieke inductieve biases. Hierdoor kan TAPNext werken met minimale latentie en wordt de temporele vensterverwerking die veel state-of-the-art trackers vereisen, overbodig. Ondanks zijn eenvoud bereikt TAPNext een nieuwe state-of-the-art trackingprestatie, zowel bij online als offline trackers. Tot slot presenteren we bewijs dat veel veelgebruikte trackingheuristieken van nature ontstaan in TAPNext door end-to-end training.
English
Tracking Any Point (TAP) in a video is a challenging computer vision problem
with many demonstrated applications in robotics, video editing, and 3D
reconstruction. Existing methods for TAP rely heavily on complex
tracking-specific inductive biases and heuristics, limiting their generality
and potential for scaling. To address these challenges, we present TAPNext, a
new approach that casts TAP as sequential masked token decoding. Our model is
causal, tracks in a purely online fashion, and removes tracking-specific
inductive biases. This enables TAPNext to run with minimal latency, and removes
the temporal windowing required by many existing state of art trackers. Despite
its simplicity, TAPNext achieves a new state-of-the-art tracking performance
among both online and offline trackers. Finally, we present evidence that many
widely used tracking heuristics emerge naturally in TAPNext through end-to-end
training.Summary
AI-Generated Summary