TAPTRv3: Ruimtelijke en Temporele Context Bevorderen Robuuste Tracking van Elk Punt in Lange Video
TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video
November 27, 2024
Auteurs: Jinyuan Qu, Hongyang Li, Shilong Liu, Tianhe Ren, Zhaoyang Zeng, Lei Zhang
cs.AI
Samenvatting
In dit artikel presenteren we TAPTRv3, dat is gebouwd op TAPTRv2 om de robuustheid van het puntvolgen te verbeteren in lange video's. TAPTRv2 is een eenvoudig DETR-achtig framework dat nauwkeurig punten kan volgen in video's in de echte wereld zonder dat er kosten-volume nodig zijn. TAPTRv3 verbetert TAPTRv2 door het tekort aan het opvragen van hoogwaardige functies uit lange video's aan te pakken, waar de te volgen punten normaal gesproken in de loop van de tijd toenemende variatie ondergaan. In TAPTRv3 stellen we voor om zowel ruimtelijke als temporele context te benutten om beter functies op te vragen langs de ruimtelijke en temporele dimensies voor robuuster volgen in lange video's. Voor beter ruimtelijk functie-opvragen presenteren we Contextbewuste Kruis-Aandacht (CCA), dat omringende ruimtelijke context benut om de kwaliteit van aandachtscores te verbeteren bij het opvragen van beeldfuncties. Voor beter temporeel functie-opvragen introduceren we Zichtbaarheidsbewuste Lange-Temporale Aandacht (VLTA) om temporele aandacht te geven aan alle voorgaande frames terwijl hun overeenkomstige zichtbaarheid wordt overwogen, wat effectief het probleem van functie-afdrijving in TAPTRv2 aanpakt dat wordt veroorzaakt door zijn RNN-achtige lang-temporale modellering. TAPTRv3 overtreft TAPTRv2 aanzienlijk op de meeste uitdagende datasets en behaalt toonaangevende prestaties. Zelfs in vergelijking met methoden die zijn getraind met grootschalige extra interne gegevens, blijft TAPTRv3 concurrerend.
English
In this paper, we present TAPTRv3, which is built upon TAPTRv2 to improve its
point tracking robustness in long videos. TAPTRv2 is a simple DETR-like
framework that can accurately track any point in real-world videos without
requiring cost-volume. TAPTRv3 improves TAPTRv2 by addressing its shortage in
querying high quality features from long videos, where the target tracking
points normally undergo increasing variation over time. In TAPTRv3, we propose
to utilize both spatial and temporal context to bring better feature querying
along the spatial and temporal dimensions for more robust tracking in long
videos. For better spatial feature querying, we present Context-aware
Cross-Attention (CCA), which leverages surrounding spatial context to enhance
the quality of attention scores when querying image features. For better
temporal feature querying, we introduce Visibility-aware Long-Temporal
Attention (VLTA) to conduct temporal attention to all past frames while
considering their corresponding visibilities, which effectively addresses the
feature drifting problem in TAPTRv2 brought by its RNN-like long-temporal
modeling. TAPTRv3 surpasses TAPTRv2 by a large margin on most of the
challenging datasets and obtains state-of-the-art performance. Even when
compared with methods trained with large-scale extra internal data, TAPTRv3 is
still competitive.