ChatPaper.aiChatPaper

TAPNext: Отслеживание любой точки (TAP) как предсказание следующего токена

TAPNext: Tracking Any Point (TAP) as Next Token Prediction

April 8, 2025
Авторы: Artem Zholus, Carl Doersch, Yi Yang, Skanda Koppula, Viorica Patraucean, Xu Owen He, Ignacio Rocco, Mehdi S. M. Sajjadi, Sarath Chandar, Ross Goroshin
cs.AI

Аннотация

Отслеживание произвольной точки (Tracking Any Point, TAP) в видео представляет собой сложную задачу компьютерного зрения с множеством приложений в робототехнике, видеомонтаже и 3D-реконструкции. Существующие методы TAP в значительной степени опираются на сложные индуктивные предпосылки и эвристики, специфичные для отслеживания, что ограничивает их универсальность и потенциал для масштабирования. Для решения этих проблем мы представляем TAPNext — новый подход, который формулирует TAP как последовательное декодирование замаскированных токенов. Наша модель является причинно-следственной, работает исключительно в онлайн-режиме и устраняет индуктивные предпосылки, специфичные для отслеживания. Это позволяет TAPNext работать с минимальной задержкой и устраняет необходимость временного окна, требуемого многими современными трекерами. Несмотря на свою простоту, TAPNext достигает нового уровня производительности в отслеживании как среди онлайн-, так и оффлайн-трекеров. Наконец, мы демонстрируем, что многие широко используемые эвристики для отслеживания естественным образом возникают в TAPNext в процессе сквозного обучения.
English
Tracking Any Point (TAP) in a video is a challenging computer vision problem with many demonstrated applications in robotics, video editing, and 3D reconstruction. Existing methods for TAP rely heavily on complex tracking-specific inductive biases and heuristics, limiting their generality and potential for scaling. To address these challenges, we present TAPNext, a new approach that casts TAP as sequential masked token decoding. Our model is causal, tracks in a purely online fashion, and removes tracking-specific inductive biases. This enables TAPNext to run with minimal latency, and removes the temporal windowing required by many existing state of art trackers. Despite its simplicity, TAPNext achieves a new state-of-the-art tracking performance among both online and offline trackers. Finally, we present evidence that many widely used tracking heuristics emerge naturally in TAPNext through end-to-end training.
PDF52April 11, 2025