TAPTRv2: Op aandacht gebaseerde positie-update verbetert het volgen van elk punt
TAPTRv2: Attention-based Position Update Improves Tracking Any Point
July 23, 2024
Auteurs: Hongyang Li, Hao Zhang, Shilong Liu, Zhaoyang Zeng, Feng Li, Tianhe Ren, Bohan Li, Lei Zhang
cs.AI
Samenvatting
In dit artikel presenteren we TAPTRv2, een Transformer-gebaseerde aanpak die voortbouwt op TAPTR voor het oplossen van de Tracking Any Point (TAP)-taak. TAPTR leent ontwerpen van DEtection TRansformer (DETR) en formuleert elk volgpunt als een puntquery, waardoor het mogelijk wordt om goed bestudeerde operaties in DETR-achtige algoritmen te benutten. TAPTRv2 verbetert TAPTR door een kritiek probleem aan te pakken met betrekking tot de afhankelijkheid van kostvolume, wat de inhoudskenmerk van de puntquery vervuilt en zowel de zichtbaarheidsvoorspelling als de kostvolumeberekening negatief beïnvloedt. In TAPTRv2 introduceren we een nieuwe aandacht-gebaseerde positie-update (APU)-operatie en gebruiken we sleutelbewuste vervormbare aandacht om deze te realiseren. Voor elke query gebruikt deze operatie sleutelbewuste aandachtgewichten om hun corresponderende vervormbare steekproefposities te combineren om een nieuwe querypositie te voorspellen. Dit ontwerp is gebaseerd op de observatie dat lokale aandacht in wezen hetzelfde is als kostvolume, waarbij beide worden berekend door het inwendig product tussen een query en de omringende kenmerken. Door deze nieuwe operatie te introduceren, verwijdert TAPTRv2 niet alleen de extra last van kostvolumeberekening, maar leidt het ook tot een aanzienlijke prestatieverbetering. TAPTRv2 overtreft TAPTR en behaalt state-of-the-art prestaties op veel uitdagende datasets, wat de superioriteit aantoont.
English
In this paper, we present TAPTRv2, a Transformer-based approach built upon
TAPTR for solving the Tracking Any Point (TAP) task. TAPTR borrows designs from
DEtection TRansformer (DETR) and formulates each tracking point as a point
query, making it possible to leverage well-studied operations in DETR-like
algorithms. TAPTRv2 improves TAPTR by addressing a critical issue regarding its
reliance on cost-volume,which contaminates the point query\'s content feature
and negatively impacts both visibility prediction and cost-volume computation.
In TAPTRv2, we propose a novel attention-based position update (APU) operation
and use key-aware deformable attention to realize. For each query, this
operation uses key-aware attention weights to combine their corresponding
deformable sampling positions to predict a new query position. This design is
based on the observation that local attention is essentially the same as
cost-volume, both of which are computed by dot-production between a query and
its surrounding features. By introducing this new operation, TAPTRv2 not only
removes the extra burden of cost-volume computation, but also leads to a
substantial performance improvement. TAPTRv2 surpasses TAPTR and achieves
state-of-the-art performance on many challenging datasets, demonstrating the
superiority