ChatPaper.aiChatPaper

TAPNext: Rastreamento de Qualquer Ponto (TAP) como Predição do Próximo Token

TAPNext: Tracking Any Point (TAP) as Next Token Prediction

April 8, 2025
Autores: Artem Zholus, Carl Doersch, Yi Yang, Skanda Koppula, Viorica Patraucean, Xu Owen He, Ignacio Rocco, Mehdi S. M. Sajjadi, Sarath Chandar, Ross Goroshin
cs.AI

Resumo

Rastrear Qualquer Ponto (TAP, do inglês Tracking Any Point) em um vídeo é um problema desafiador de visão computacional com diversas aplicações demonstradas em robótica, edição de vídeo e reconstrução 3D. Os métodos existentes para TAP dependem fortemente de vieses indutivos e heurísticas específicas e complexas para rastreamento, o que limita sua generalidade e potencial de escalabilidade. Para enfrentar esses desafios, apresentamos o TAPNext, uma nova abordagem que formula o TAP como uma decodificação sequencial de tokens mascarados. Nosso modelo é causal, realiza o rastreamento de forma puramente online e elimina os vieses indutivos específicos para rastreamento. Isso permite que o TAPNext opere com latência mínima e dispense a necessidade de janelamento temporal, exigido por muitos rastreadores state-of-the-art. Apesar de sua simplicidade, o TAPNext alcança um novo estado da arte em desempenho de rastreamento, tanto entre rastreadores online quanto offline. Por fim, apresentamos evidências de que muitas heurísticas amplamente utilizadas em rastreamento emergem naturalmente no TAPNext por meio de treinamento end-to-end.
English
Tracking Any Point (TAP) in a video is a challenging computer vision problem with many demonstrated applications in robotics, video editing, and 3D reconstruction. Existing methods for TAP rely heavily on complex tracking-specific inductive biases and heuristics, limiting their generality and potential for scaling. To address these challenges, we present TAPNext, a new approach that casts TAP as sequential masked token decoding. Our model is causal, tracks in a purely online fashion, and removes tracking-specific inductive biases. This enables TAPNext to run with minimal latency, and removes the temporal windowing required by many existing state of art trackers. Despite its simplicity, TAPNext achieves a new state-of-the-art tracking performance among both online and offline trackers. Finally, we present evidence that many widely used tracking heuristics emerge naturally in TAPNext through end-to-end training.

Summary

AI-Generated Summary

PDF52April 11, 2025