ChatPaper.aiChatPaper

TAPTRv2: 어텐션 기반 위치 업데이트로 Tracking Any Point 성능 향상

TAPTRv2: Attention-based Position Update Improves Tracking Any Point

July 23, 2024
저자: Hongyang Li, Hao Zhang, Shilong Liu, Zhaoyang Zeng, Feng Li, Tianhe Ren, Bohan Li, Lei Zhang
cs.AI

초록

본 논문에서는 TAPTR을 기반으로 한 Transformer 기반 접근 방식인 TAPTRv2를 제안하여 Tracking Any Point (TAP) 과제를 해결합니다. TAPTR은 DEtection TRansformer (DETR)의 설계를 차용하고 각 추적 포인트를 포인트 쿼리로 공식화함으로써 DETR과 유사한 알고리즘에서 잘 연구된 연산을 활용할 수 있게 합니다. TAPTRv2는 TAPTR의 비용 볼륨(cost-volume) 의존성 문제를 해결하여 개선합니다. 이 문제는 포인트 쿼리의 콘텐츠 특징을 오염시키고 가시성 예측 및 비용 볼륨 계산에 부정적인 영향을 미칩니다. TAPTRv2에서는 새로운 주의 기반 위치 업데이트(APU) 연산을 제안하고, 이를 구현하기 위해 키 인식 변형 가능 주의(key-aware deformable attention)를 사용합니다. 각 쿼리에 대해 이 연산은 키 인식 주의 가중치를 사용하여 해당 변형 가능 샘플링 위치를 결합하여 새로운 쿼리 위치를 예측합니다. 이 설계는 로컬 주의가 기본적으로 비용 볼륨과 동일하다는 관찰에 기반합니다. 둘 다 쿼리와 주변 특징 간의 내적을 통해 계산됩니다. 이 새로운 연산을 도입함으로써, TAPTRv2는 비용 볼륨 계산의 추가 부담을 제거할 뿐만 아니라 성능을 크게 향상시킵니다. TAPTRv2는 TAPTR을 능가하며 여러 도전적인 데이터셋에서 최첨단 성능을 달성하여 그 우수성을 입증합니다.
English
In this paper, we present TAPTRv2, a Transformer-based approach built upon TAPTR for solving the Tracking Any Point (TAP) task. TAPTR borrows designs from DEtection TRansformer (DETR) and formulates each tracking point as a point query, making it possible to leverage well-studied operations in DETR-like algorithms. TAPTRv2 improves TAPTR by addressing a critical issue regarding its reliance on cost-volume,which contaminates the point query\'s content feature and negatively impacts both visibility prediction and cost-volume computation. In TAPTRv2, we propose a novel attention-based position update (APU) operation and use key-aware deformable attention to realize. For each query, this operation uses key-aware attention weights to combine their corresponding deformable sampling positions to predict a new query position. This design is based on the observation that local attention is essentially the same as cost-volume, both of which are computed by dot-production between a query and its surrounding features. By introducing this new operation, TAPTRv2 not only removes the extra burden of cost-volume computation, but also leads to a substantial performance improvement. TAPTRv2 surpasses TAPTR and achieves state-of-the-art performance on many challenging datasets, demonstrating the superiority

Summary

AI-Generated Summary

PDF114November 28, 2024