TAPTRv2: Aufmerksamkeitsbasiertes Positionsupdate verbessert das Tracking beliebiger Punkte
TAPTRv2: Attention-based Position Update Improves Tracking Any Point
July 23, 2024
Autoren: Hongyang Li, Hao Zhang, Shilong Liu, Zhaoyang Zeng, Feng Li, Tianhe Ren, Bohan Li, Lei Zhang
cs.AI
Zusammenfassung
In diesem Paper präsentieren wir TAPTRv2, einen auf Transformer basierenden Ansatz, der auf TAPTR aufbaut, um das Tracking Any Point (TAP) Problem zu lösen. TAPTR übernimmt Entwurfskonzepte des DEtection TRansformer (DETR) und formuliert jeden Verfolgungspunkt als Punkt-Query, was es ermöglicht, gut erforschte Operationen in DETR-ähnlichen Algorithmen zu nutzen. TAPTRv2 verbessert TAPTR, indem es ein kritisches Problem angeht, das sich auf dessen Abhängigkeit von Kosten-Volumen bezieht, was die Inhaltsmerkmale der Punkt-Query verunreinigt und sowohl die Sichtbarkeitsvorhersage als auch die Kosten-Volumen-Berechnung negativ beeinflusst. In TAPTRv2 schlagen wir eine neuartige auf Aufmerksamkeit basierende Positionsaktualisierung (APU) Operation vor und verwenden eine auf Schlüssel basierende verformbare Aufmerksamkeit zur Realisierung. Bei dieser Operation werden für jede Query Schlüssel-bewusste Aufmerksamkeitsgewichte verwendet, um ihre entsprechenden verformbaren Abtastpositionen zu kombinieren und eine neue Query-Position vorherzusagen. Dieses Design basiert auf der Beobachtung, dass lokale Aufmerksamkeit im Wesentlichen dasselbe ist wie Kosten-Volumen, die beide durch Punktproduktion zwischen einer Query und ihren umgebenden Merkmalen berechnet werden. Durch die Einführung dieser neuen Operation beseitigt TAPTRv2 nicht nur die zusätzliche Belastung der Kosten-Volumen-Berechnung, sondern führt auch zu einer erheblichen Leistungsverbesserung. TAPTRv2 übertrifft TAPTR und erzielt Spitzenleistungen auf vielen anspruchsvollen Datensätzen, was seine Überlegenheit demonstriert.
English
In this paper, we present TAPTRv2, a Transformer-based approach built upon
TAPTR for solving the Tracking Any Point (TAP) task. TAPTR borrows designs from
DEtection TRansformer (DETR) and formulates each tracking point as a point
query, making it possible to leverage well-studied operations in DETR-like
algorithms. TAPTRv2 improves TAPTR by addressing a critical issue regarding its
reliance on cost-volume,which contaminates the point query\'s content feature
and negatively impacts both visibility prediction and cost-volume computation.
In TAPTRv2, we propose a novel attention-based position update (APU) operation
and use key-aware deformable attention to realize. For each query, this
operation uses key-aware attention weights to combine their corresponding
deformable sampling positions to predict a new query position. This design is
based on the observation that local attention is essentially the same as
cost-volume, both of which are computed by dot-production between a query and
its surrounding features. By introducing this new operation, TAPTRv2 not only
removes the extra burden of cost-volume computation, but also leads to a
substantial performance improvement. TAPTRv2 surpasses TAPTR and achieves
state-of-the-art performance on many challenging datasets, demonstrating the
superioritySummary
AI-Generated Summary