TAPNext: Seguimiento de Cualquier Punto (TAP) como Predicción del Siguiente Token
TAPNext: Tracking Any Point (TAP) as Next Token Prediction
April 8, 2025
Autores: Artem Zholus, Carl Doersch, Yi Yang, Skanda Koppula, Viorica Patraucean, Xu Owen He, Ignacio Rocco, Mehdi S. M. Sajjadi, Sarath Chandar, Ross Goroshin
cs.AI
Resumen
El seguimiento de cualquier punto (TAP, por sus siglas en inglés) en un video es un problema desafiante en visión por computadora con numerosas aplicaciones demostradas en robótica, edición de video y reconstrucción 3D. Los métodos existentes para TAP dependen en gran medida de sesgos inductivos y heurísticas específicas para el seguimiento, lo que limita su generalidad y potencial de escalabilidad. Para abordar estos desafíos, presentamos TAPNext, un nuevo enfoque que plantea TAP como un decodificado secuencial de tokens enmascarados. Nuestro modelo es causal, realiza el seguimiento de manera puramente en línea y elimina los sesgos inductivos específicos para el seguimiento. Esto permite que TAPNext funcione con una latencia mínima y elimina la necesidad de ventanas temporales requeridas por muchos rastreadores de última generación. A pesar de su simplicidad, TAPNext logra un rendimiento de seguimiento de última generación tanto en rastreadores en línea como fuera de línea. Finalmente, presentamos evidencia de que muchas heurísticas de seguimiento ampliamente utilizadas emergen naturalmente en TAPNext a través del entrenamiento de extremo a extremo.
English
Tracking Any Point (TAP) in a video is a challenging computer vision problem
with many demonstrated applications in robotics, video editing, and 3D
reconstruction. Existing methods for TAP rely heavily on complex
tracking-specific inductive biases and heuristics, limiting their generality
and potential for scaling. To address these challenges, we present TAPNext, a
new approach that casts TAP as sequential masked token decoding. Our model is
causal, tracks in a purely online fashion, and removes tracking-specific
inductive biases. This enables TAPNext to run with minimal latency, and removes
the temporal windowing required by many existing state of art trackers. Despite
its simplicity, TAPNext achieves a new state-of-the-art tracking performance
among both online and offline trackers. Finally, we present evidence that many
widely used tracking heuristics emerge naturally in TAPNext through end-to-end
training.Summary
AI-Generated Summary