TAPTRv3: Raum- und Zeitkontext fördern robustes Tracking eines beliebigen Punktes in langen Videos
TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video
November 27, 2024
Autoren: Jinyuan Qu, Hongyang Li, Shilong Liu, Tianhe Ren, Zhaoyang Zeng, Lei Zhang
cs.AI
Zusammenfassung
In diesem Paper präsentieren wir TAPTRv3, das auf TAPTRv2 aufbaut, um die Robustheit der Punktnachverfolgung in langen Videos zu verbessern. TAPTRv2 ist ein einfaches DETR-ähnliches Framework, das jeden Punkt in realen Videos präzise verfolgen kann, ohne auf Kosten-Volumen angewiesen zu sein. TAPTRv3 verbessert TAPTRv2, indem es auf dessen Mangel eingeht, hochwertige Merkmale aus langen Videos abzurufen, in denen die nachzuverfolgenden Punkte normalerweise im Laufe der Zeit zunehmende Variationen aufweisen. In TAPTRv3 schlagen wir vor, sowohl den räumlichen als auch den zeitlichen Kontext zu nutzen, um eine bessere Merkmalsabfrage entlang der räumlichen und zeitlichen Dimensionen für eine robustere Nachverfolgung in langen Videos zu ermöglichen. Für eine bessere räumliche Merkmalsabfrage präsentieren wir das Context-aware Cross-Attention (CCA), das die umgebenden räumlichen Kontexte nutzt, um die Qualität der Aufmerksamkeitswerte bei der Abfrage von Bildmerkmalen zu verbessern. Für eine bessere zeitliche Merkmalsabfrage führen wir das Visibility-aware Long-Temporal Attention (VLTA) ein, um eine zeitliche Aufmerksamkeit auf alle vergangenen Frames zu lenken, während deren entsprechende Sichtbarkeiten berücksichtigt werden, was das Merkmalsdriftproblem in TAPTRv2 effektiv angeht, das durch dessen RNN-ähnliches langzeitliches Modellieren verursacht wird. TAPTRv3 übertrifft TAPTRv2 bei den meisten anspruchsvollen Datensätzen deutlich und erzielt eine Spitzenleistung. Selbst im Vergleich zu Methoden, die mit groß angelegten zusätzlichen internen Daten trainiert wurden, bleibt TAPTRv3 wettbewerbsfähig.
English
In this paper, we present TAPTRv3, which is built upon TAPTRv2 to improve its
point tracking robustness in long videos. TAPTRv2 is a simple DETR-like
framework that can accurately track any point in real-world videos without
requiring cost-volume. TAPTRv3 improves TAPTRv2 by addressing its shortage in
querying high quality features from long videos, where the target tracking
points normally undergo increasing variation over time. In TAPTRv3, we propose
to utilize both spatial and temporal context to bring better feature querying
along the spatial and temporal dimensions for more robust tracking in long
videos. For better spatial feature querying, we present Context-aware
Cross-Attention (CCA), which leverages surrounding spatial context to enhance
the quality of attention scores when querying image features. For better
temporal feature querying, we introduce Visibility-aware Long-Temporal
Attention (VLTA) to conduct temporal attention to all past frames while
considering their corresponding visibilities, which effectively addresses the
feature drifting problem in TAPTRv2 brought by its RNN-like long-temporal
modeling. TAPTRv3 surpasses TAPTRv2 by a large margin on most of the
challenging datasets and obtains state-of-the-art performance. Even when
compared with methods trained with large-scale extra internal data, TAPTRv3 is
still competitive.Summary
AI-Generated Summary