Correspondance Locale Tous-à-Tous pour le Suivi de Points
Local All-Pair Correspondence for Point Tracking
July 22, 2024
Auteurs: Seokju Cho, Jiahui Huang, Jisu Nam, Honggyu An, Seungryong Kim, Joon-Young Lee
cs.AI
Résumé
Nous présentons LocoTrack, un modèle extrêmement précis et efficace conçu pour la tâche de suivi de n'importe quel point (TAP) à travers des séquences vidéo. Les approches précédentes dans cette tâche reposent souvent sur des cartes de corrélation 2D locales pour établir des correspondances entre un point dans l'image de requête et une région locale dans l'image cible, ce qui pose souvent des difficultés dans les régions homogènes ou avec des caractéristiques répétitives, entraînant des ambiguïtés de correspondance. LocoTrack surmonte ce défi grâce à une approche novatrice qui utilise des correspondances toutes paires entre les régions, c'est-à-dire une corrélation 4D locale, pour établir des correspondances précises, avec une correspondance bidirectionnelle et une régularité de correspondance qui améliorent significativement la robustesse contre les ambiguïtés. Nous intégrons également un encodeur de corrélation léger pour améliorer l'efficacité computationnelle, ainsi qu'une architecture Transformer compacte pour intégrer des informations temporelles à long terme. LocoTrack atteint une précision inégalée sur tous les benchmarks TAP-Vid et fonctionne à une vitesse presque 6 fois supérieure à celle de l'état de l'art actuel.
English
We introduce LocoTrack, a highly accurate and efficient model designed for
the task of tracking any point (TAP) across video sequences. Previous
approaches in this task often rely on local 2D correlation maps to establish
correspondences from a point in the query image to a local region in the target
image, which often struggle with homogeneous regions or repetitive features,
leading to matching ambiguities. LocoTrack overcomes this challenge with a
novel approach that utilizes all-pair correspondences across regions, i.e.,
local 4D correlation, to establish precise correspondences, with bidirectional
correspondence and matching smoothness significantly enhancing robustness
against ambiguities. We also incorporate a lightweight correlation encoder to
enhance computational efficiency, and a compact Transformer architecture to
integrate long-term temporal information. LocoTrack achieves unmatched accuracy
on all TAP-Vid benchmarks and operates at a speed almost 6 times faster than
the current state-of-the-art.Summary
AI-Generated Summary