TAPTRv3: Ruimtelijke en Temporele Context Bevorderen Robuuste Tracking van Elk Punt in Lange Video

Samenvatting

In dit artikel presenteren we TAPTRv3, dat is gebouwd op TAPTRv2 om de robuustheid van het puntvolgen te verbeteren in lange video's. TAPTRv2 is een eenvoudig DETR-achtig framework dat nauwkeurig punten kan volgen in video's in de echte wereld zonder dat er kosten-volume nodig zijn. TAPTRv3 verbetert TAPTRv2 door het tekort aan het opvragen van hoogwaardige functies uit lange video's aan te pakken, waar de te volgen punten normaal gesproken in de loop van de tijd toenemende variatie ondergaan. In TAPTRv3 stellen we voor om zowel ruimtelijke als temporele context te benutten om beter functies op te vragen langs de ruimtelijke en temporele dimensies voor robuuster volgen in lange video's. Voor beter ruimtelijk functie-opvragen presenteren we Contextbewuste Kruis-Aandacht (CCA), dat omringende ruimtelijke context benut om de kwaliteit van aandachtscores te verbeteren bij het opvragen van beeldfuncties. Voor beter temporeel functie-opvragen introduceren we Zichtbaarheidsbewuste Lange-Temporale Aandacht (VLTA) om temporele aandacht te geven aan alle voorgaande frames terwijl hun overeenkomstige zichtbaarheid wordt overwogen, wat effectief het probleem van functie-afdrijving in TAPTRv2 aanpakt dat wordt veroorzaakt door zijn RNN-achtige lang-temporale modellering. TAPTRv3 overtreft TAPTRv2 aanzienlijk op de meeste uitdagende datasets en behaalt toonaangevende prestaties. Zelfs in vergelijking met methoden die zijn getraind met grootschalige extra interne gegevens, blijft TAPTRv3 concurrerend.

English

In this paper, we present TAPTRv3, which is built upon TAPTRv2 to improve its point tracking robustness in long videos. TAPTRv2 is a simple DETR-like framework that can accurately track any point in real-world videos without requiring cost-volume. TAPTRv3 improves TAPTRv2 by addressing its shortage in querying high quality features from long videos, where the target tracking points normally undergo increasing variation over time. In TAPTRv3, we propose to utilize both spatial and temporal context to bring better feature querying along the spatial and temporal dimensions for more robust tracking in long videos. For better spatial feature querying, we present Context-aware Cross-Attention (CCA), which leverages surrounding spatial context to enhance the quality of attention scores when querying image features. For better temporal feature querying, we introduce Visibility-aware Long-Temporal Attention (VLTA) to conduct temporal attention to all past frames while considering their corresponding visibilities, which effectively addresses the feature drifting problem in TAPTRv2 brought by its RNN-like long-temporal modeling. TAPTRv3 surpasses TAPTRv2 by a large margin on most of the challenging datasets and obtains state-of-the-art performance. Even when compared with methods trained with large-scale extra internal data, TAPTRv3 is still competitive.

TAPTRv3: Ruimtelijke en Temporele Context Bevorderen Robuuste Tracking van Elk Punt in Lange Video

TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video

Samenvatting

Support