TAPTRv2: Actualización de Posición basada en Atención Mejora el Seguimiento de Cualquier Punto
TAPTRv2: Attention-based Position Update Improves Tracking Any Point
July 23, 2024
Autores: Hongyang Li, Hao Zhang, Shilong Liu, Zhaoyang Zeng, Feng Li, Tianhe Ren, Bohan Li, Lei Zhang
cs.AI
Resumen
En este documento, presentamos TAPTRv2, un enfoque basado en Transformer construido sobre TAPTR para resolver la tarea de Seguimiento de Cualquier Punto (TAP). TAPTR toma prestados diseños del Detector Transformer (DETR) y formula cada punto de seguimiento como una consulta de punto, lo que permite aprovechar operaciones bien estudiadas en algoritmos similares a DETR. TAPTRv2 mejora TAPTR al abordar un problema crítico relacionado con su dependencia en el volumen de costos, que contamina la característica de contenido de la consulta de punto y afecta negativamente tanto la predicción de visibilidad como el cálculo del volumen de costos. En TAPTRv2, proponemos una nueva operación de actualización de posición basada en atención (APU) y utilizamos atención deformable consciente de la clave para realizarla. Para cada consulta, esta operación utiliza pesos de atención conscientes de la clave para combinar sus posiciones de muestreo deformables correspondientes y predecir una nueva posición de consulta. Este diseño se basa en la observación de que la atención local es esencialmente lo mismo que el volumen de costos, ambos se calculan mediante el producto punto entre una consulta y sus características circundantes. Al introducir esta nueva operación, TAPTRv2 no solo elimina la carga adicional del cálculo del volumen de costos, sino que también conduce a una mejora sustancial en el rendimiento. TAPTRv2 supera a TAPTR y logra un rendimiento de vanguardia en muchos conjuntos de datos desafiantes, demostrando la superioridad.
English
In this paper, we present TAPTRv2, a Transformer-based approach built upon
TAPTR for solving the Tracking Any Point (TAP) task. TAPTR borrows designs from
DEtection TRansformer (DETR) and formulates each tracking point as a point
query, making it possible to leverage well-studied operations in DETR-like
algorithms. TAPTRv2 improves TAPTR by addressing a critical issue regarding its
reliance on cost-volume,which contaminates the point query\'s content feature
and negatively impacts both visibility prediction and cost-volume computation.
In TAPTRv2, we propose a novel attention-based position update (APU) operation
and use key-aware deformable attention to realize. For each query, this
operation uses key-aware attention weights to combine their corresponding
deformable sampling positions to predict a new query position. This design is
based on the observation that local attention is essentially the same as
cost-volume, both of which are computed by dot-production between a query and
its surrounding features. By introducing this new operation, TAPTRv2 not only
removes the extra burden of cost-volume computation, but also leads to a
substantial performance improvement. TAPTRv2 surpasses TAPTR and achieves
state-of-the-art performance on many challenging datasets, demonstrating the
superioritySummary
AI-Generated Summary