ChatPaper.aiChatPaper

TAPTRv2: Atualização de Posição Baseada em Atenção Melhora o Rastreamento de Qualquer Ponto

TAPTRv2: Attention-based Position Update Improves Tracking Any Point

July 23, 2024
Autores: Hongyang Li, Hao Zhang, Shilong Liu, Zhaoyang Zeng, Feng Li, Tianhe Ren, Bohan Li, Lei Zhang
cs.AI

Resumo

Neste artigo, apresentamos o TAPTRv2, uma abordagem baseada em Transformer construída sobre o TAPTR para resolver a tarefa de Rastreamento de Qualquer Ponto (TAP). O TAPTR incorpora projetos do DETection TRansformer (DETR) e formula cada ponto de rastreamento como uma consulta de ponto, tornando possível aproveitar operações bem estudadas em algoritmos semelhantes ao DETR. O TAPTRv2 melhora o TAPTR ao abordar um problema crítico relacionado à sua dependência do volume de custo, que contamina a característica de conteúdo da consulta de ponto e impacta negativamente tanto a previsão de visibilidade quanto a computação do volume de custo. No TAPTRv2, propomos uma operação de atualização de posição baseada em atenção (APU) e utilizamos atenção deformável sensível à chave para realizá-la. Para cada consulta, essa operação utiliza pesos de atenção sensíveis à chave para combinar suas posições de amostragem deformáveis correspondentes e prever uma nova posição de consulta. Este projeto é baseado na observação de que a atenção local é essencialmente a mesma que o volume de custo, ambos calculados por produto ponto entre uma consulta e suas características circundantes. Ao introduzir essa nova operação, o TAPTRv2 não apenas elimina o fardo adicional da computação do volume de custo, mas também resulta em uma melhoria substancial de desempenho. O TAPTRv2 supera o TAPTR e alcança um desempenho de ponta em muitos conjuntos de dados desafiadores, demonstrando a superioridade.
English
In this paper, we present TAPTRv2, a Transformer-based approach built upon TAPTR for solving the Tracking Any Point (TAP) task. TAPTR borrows designs from DEtection TRansformer (DETR) and formulates each tracking point as a point query, making it possible to leverage well-studied operations in DETR-like algorithms. TAPTRv2 improves TAPTR by addressing a critical issue regarding its reliance on cost-volume,which contaminates the point query\'s content feature and negatively impacts both visibility prediction and cost-volume computation. In TAPTRv2, we propose a novel attention-based position update (APU) operation and use key-aware deformable attention to realize. For each query, this operation uses key-aware attention weights to combine their corresponding deformable sampling positions to predict a new query position. This design is based on the observation that local attention is essentially the same as cost-volume, both of which are computed by dot-production between a query and its surrounding features. By introducing this new operation, TAPTRv2 not only removes the extra burden of cost-volume computation, but also leads to a substantial performance improvement. TAPTRv2 surpasses TAPTR and achieves state-of-the-art performance on many challenging datasets, demonstrating the superiority

Summary

AI-Generated Summary

PDF114November 28, 2024