TAPTRv2: アテンションベースの位置更新によるTracking Any Pointの改善
TAPTRv2: Attention-based Position Update Improves Tracking Any Point
July 23, 2024
著者: Hongyang Li, Hao Zhang, Shilong Liu, Zhaoyang Zeng, Feng Li, Tianhe Ren, Bohan Li, Lei Zhang
cs.AI
要旨
本論文では、Tracking Any Point (TAP) タスクを解決するために、TAPTR を基盤とした Transformer ベースのアプローチである TAPTRv2 を提案する。TAPTR は DEtection TRansformer (DETR) の設計を借用し、各追跡ポイントをポイントクエリとして定式化することで、DETR のようなアルゴリズムでよく研究された操作を活用することを可能にしている。TAPTRv2 は、コストボリュームへの依存に関わる重要な問題に対処することで TAPTR を改善する。この依存は、ポイントクエリのコンテンツ特徴を汚染し、可視性予測とコストボリューム計算の両方に悪影響を及ぼす。TAPTRv2 では、新しいアテンションベースの位置更新 (APU) 操作を提案し、キーを意識した変形可能アテンションを用いてこれを実現する。各クエリに対して、この操作はキーを意識したアテンション重みを使用して、対応する変形可能なサンプリング位置を組み合わせ、新しいクエリ位置を予測する。この設計は、ローカルアテンションが本質的にコストボリュームと同じであり、どちらもクエリとその周辺特徴とのドット積によって計算されるという観察に基づいている。この新しい操作を導入することで、TAPTRv2 はコストボリューム計算の余分な負担を取り除くだけでなく、大幅な性能向上をもたらす。TAPTRv2 は TAPTR を上回り、多くの挑戦的なデータセットで最先端の性能を達成し、その優位性を実証している。
English
In this paper, we present TAPTRv2, a Transformer-based approach built upon
TAPTR for solving the Tracking Any Point (TAP) task. TAPTR borrows designs from
DEtection TRansformer (DETR) and formulates each tracking point as a point
query, making it possible to leverage well-studied operations in DETR-like
algorithms. TAPTRv2 improves TAPTR by addressing a critical issue regarding its
reliance on cost-volume,which contaminates the point query\'s content feature
and negatively impacts both visibility prediction and cost-volume computation.
In TAPTRv2, we propose a novel attention-based position update (APU) operation
and use key-aware deformable attention to realize. For each query, this
operation uses key-aware attention weights to combine their corresponding
deformable sampling positions to predict a new query position. This design is
based on the observation that local attention is essentially the same as
cost-volume, both of which are computed by dot-production between a query and
its surrounding features. By introducing this new operation, TAPTRv2 not only
removes the extra burden of cost-volume computation, but also leads to a
substantial performance improvement. TAPTRv2 surpasses TAPTR and achieves
state-of-the-art performance on many challenging datasets, demonstrating the
superiority