ChatPaper.aiChatPaper

TAPTRv2: L'Aggiornamento della Posizione Basato sull'Attenzione Migliora il Tracking di Qualsiasi Punto

TAPTRv2: Attention-based Position Update Improves Tracking Any Point

July 23, 2024
Autori: Hongyang Li, Hao Zhang, Shilong Liu, Zhaoyang Zeng, Feng Li, Tianhe Ren, Bohan Li, Lei Zhang
cs.AI

Abstract

In questo articolo presentiamo TAPTRv2, un approccio basato su Transformer costruito su TAPTR per risolvere il compito di Tracking Any Point (TAP). TAPTR prende in prestito design da DEtection TRansformer (DETR) e formula ogni punto di tracciamento come una query puntuale, rendendo possibile sfruttare operazioni ben studiate in algoritmi simili a DETR. TAPTRv2 migliora TAPTR affrontando un problema critico relativo alla sua dipendenza dal cost-volume, che contamina la feature di contenuto della query puntuale e influisce negativamente sia sulla previsione della visibilità che sul calcolo del cost-volume. In TAPTRv2, proponiamo una nuova operazione di aggiornamento della posizione basata sull'attenzione (APU) e utilizziamo l'attenzione deformabile key-aware per realizzarla. Per ogni query, questa operazione utilizza pesi di attenzione key-aware per combinare le corrispondenti posizioni di campionamento deformabili e prevedere una nuova posizione della query. Questo design si basa sull'osservazione che l'attenzione locale è essenzialmente la stessa del cost-volume, entrambi calcolati tramite prodotto scalare tra una query e le feature circostanti. Introducendo questa nuova operazione, TAPTRv2 non solo rimuove il carico aggiuntivo del calcolo del cost-volume, ma porta anche a un sostanziale miglioramento delle prestazioni. TAPTRv2 supera TAPTR e raggiunge prestazioni all'avanguardia su molti dataset impegnativi, dimostrando la sua superiorità.
English
In this paper, we present TAPTRv2, a Transformer-based approach built upon TAPTR for solving the Tracking Any Point (TAP) task. TAPTR borrows designs from DEtection TRansformer (DETR) and formulates each tracking point as a point query, making it possible to leverage well-studied operations in DETR-like algorithms. TAPTRv2 improves TAPTR by addressing a critical issue regarding its reliance on cost-volume,which contaminates the point query\'s content feature and negatively impacts both visibility prediction and cost-volume computation. In TAPTRv2, we propose a novel attention-based position update (APU) operation and use key-aware deformable attention to realize. For each query, this operation uses key-aware attention weights to combine their corresponding deformable sampling positions to predict a new query position. This design is based on the observation that local attention is essentially the same as cost-volume, both of which are computed by dot-production between a query and its surrounding features. By introducing this new operation, TAPTRv2 not only removes the extra burden of cost-volume computation, but also leads to a substantial performance improvement. TAPTRv2 surpasses TAPTR and achieves state-of-the-art performance on many challenging datasets, demonstrating the superiority
PDF114November 28, 2024