ChatPaper.aiChatPaper

TAPTRv2: Обновление позиции на основе внимания улучшает отслеживание любой точки

TAPTRv2: Attention-based Position Update Improves Tracking Any Point

July 23, 2024
Авторы: Hongyang Li, Hao Zhang, Shilong Liu, Zhaoyang Zeng, Feng Li, Tianhe Ren, Bohan Li, Lei Zhang
cs.AI

Аннотация

В данной статье мы представляем TAPTRv2, подход на основе трансформера, разработанный на основе TAPTR для решения задачи отслеживания любой точки (TAP). TAPTR заимствует концепции из DEtection TRansformer (DETR) и формулирует каждую отслеживаемую точку как точечный запрос, что позволяет использовать хорошо изученные операции в алгоритмах, подобных DETR. TAPTRv2 улучшает TAPTR, решая критическую проблему, связанную с его зависимостью от объема затрат, который загрязняет содержательные характеристики точечного запроса и негативно влияет как на предсказание видимости, так и на вычисление объема затрат. В TAPTRv2 мы предлагаем новую операцию обновления позиции на основе внимания (APU) и используем ключевое деформируемое внимание для реализации. Для каждого запроса эта операция использует веса внимания, зависящие от ключей, для объединения соответствующих деформируемых позиций выборки с целью предсказания новой позиции запроса. Этот дизайн основан на наблюдении, что локальное внимание по сути то же самое, что и объем затрат, которые вычисляются путем скалярного произведения между запросом и окружающими характеристиками. Внедрение этой новой операции позволяет TAPTRv2 не только избавиться от дополнительной нагрузки вычисления объема затрат, но и приводит к значительному улучшению производительности. TAPTRv2 превосходит TAPTR и достигает передовых показателей производительности на многих сложных наборах данных, демонстрируя превосходство.
English
In this paper, we present TAPTRv2, a Transformer-based approach built upon TAPTR for solving the Tracking Any Point (TAP) task. TAPTR borrows designs from DEtection TRansformer (DETR) and formulates each tracking point as a point query, making it possible to leverage well-studied operations in DETR-like algorithms. TAPTRv2 improves TAPTR by addressing a critical issue regarding its reliance on cost-volume,which contaminates the point query\'s content feature and negatively impacts both visibility prediction and cost-volume computation. In TAPTRv2, we propose a novel attention-based position update (APU) operation and use key-aware deformable attention to realize. For each query, this operation uses key-aware attention weights to combine their corresponding deformable sampling positions to predict a new query position. This design is based on the observation that local attention is essentially the same as cost-volume, both of which are computed by dot-production between a query and its surrounding features. By introducing this new operation, TAPTRv2 not only removes the extra burden of cost-volume computation, but also leads to a substantial performance improvement. TAPTRv2 surpasses TAPTR and achieves state-of-the-art performance on many challenging datasets, demonstrating the superiority

Summary

AI-Generated Summary

PDF114November 28, 2024