TAPTRv2 : La mise à jour de position basée sur l'attention améliore le suivi de tout point
TAPTRv2: Attention-based Position Update Improves Tracking Any Point
July 23, 2024
Auteurs: Hongyang Li, Hao Zhang, Shilong Liu, Zhaoyang Zeng, Feng Li, Tianhe Ren, Bohan Li, Lei Zhang
cs.AI
Résumé
Dans cet article, nous présentons TAPTRv2, une approche basée sur les Transformers, construite sur TAPTR pour résoudre la tâche de suivi de n'importe quel point (Tracking Any Point, TAP). TAPTR s'inspire des conceptions du DETR (DEtection TRansformer) et formule chaque point de suivi comme une requête de point, permettant ainsi d'exploiter des opérations bien étudiées dans les algorithmes de type DETR. TAPTRv2 améliore TAPTR en résolvant un problème critique lié à sa dépendance au volume de coût, qui contamine la caractéristique de contenu de la requête de point et affecte négativement à la fois la prédiction de visibilité et le calcul du volume de coût. Dans TAPTRv2, nous proposons une nouvelle opération de mise à jour de position basée sur l'attention (Attention-based Position Update, APU) et utilisons une attention déformable consciente des clés pour la réaliser. Pour chaque requête, cette opération utilise des poids d'attention conscients des clés pour combiner leurs positions d'échantillonnage déformables correspondantes afin de prédire une nouvelle position de requête. Cette conception est basée sur l'observation que l'attention locale est essentiellement la même que le volume de coût, les deux étant calculés par un produit scalaire entre une requête et ses caractéristiques environnantes. En introduisant cette nouvelle opération, TAPTRv2 non seulement supprime la charge supplémentaire du calcul du volume de coût, mais entraîne également une amélioration substantielle des performances. TAPTRv2 surpasse TAPTR et atteint des performances de pointe sur de nombreux ensembles de données difficiles, démontrant ainsi sa supériorité.
English
In this paper, we present TAPTRv2, a Transformer-based approach built upon
TAPTR for solving the Tracking Any Point (TAP) task. TAPTR borrows designs from
DEtection TRansformer (DETR) and formulates each tracking point as a point
query, making it possible to leverage well-studied operations in DETR-like
algorithms. TAPTRv2 improves TAPTR by addressing a critical issue regarding its
reliance on cost-volume,which contaminates the point query\'s content feature
and negatively impacts both visibility prediction and cost-volume computation.
In TAPTRv2, we propose a novel attention-based position update (APU) operation
and use key-aware deformable attention to realize. For each query, this
operation uses key-aware attention weights to combine their corresponding
deformable sampling positions to predict a new query position. This design is
based on the observation that local attention is essentially the same as
cost-volume, both of which are computed by dot-production between a query and
its surrounding features. By introducing this new operation, TAPTRv2 not only
removes the extra burden of cost-volume computation, but also leads to a
substantial performance improvement. TAPTRv2 surpasses TAPTR and achieves
state-of-the-art performance on many challenging datasets, demonstrating the
superioritySummary
AI-Generated Summary