ChatPaper.aiChatPaper

Lokale Alle-Paar Correspondentie voor Puntvolging

Local All-Pair Correspondence for Point Tracking

July 22, 2024
Auteurs: Seokju Cho, Jiahui Huang, Jisu Nam, Honggyu An, Seungryong Kim, Joon-Young Lee
cs.AI

Samenvatting

We introduceren LocoTrack, een uiterst nauwkeurig en efficiënt model ontworpen voor de taak van het volgen van elk punt (TAP) in videosequenties. Eerdere benaderingen voor deze taak maken vaak gebruik van lokale 2D-correlatiekaarten om overeenkomsten vast te stellen tussen een punt in de queryafbeelding en een lokaal gebied in de doelafbeelding, wat vaak problemen oplevert bij homogene gebieden of repetitieve kenmerken, wat leidt tot matchingambiguïteiten. LocoTrack overwint deze uitdaging met een nieuwe aanpak die alle-paar-correspondenties tussen regio's benut, d.w.z. lokale 4D-correlatie, om precieze overeenkomsten vast te stellen, waarbij bidirectionele correspondentie en matchinggladheid de robuustheid tegen ambiguïteiten aanzienlijk verbeteren. We integreren ook een lichtgewicht correlatie-encoder om de rekenkundige efficiëntie te verbeteren, en een compacte Transformer-architectuur om langetermijntijdelijke informatie te integreren. LocoTrack behaalt ongeëvenaarde nauwkeurigheid op alle TAP-Vid-benchmarks en werkt met een snelheid die bijna 6 keer sneller is dan de huidige state-of-the-art.
English
We introduce LocoTrack, a highly accurate and efficient model designed for the task of tracking any point (TAP) across video sequences. Previous approaches in this task often rely on local 2D correlation maps to establish correspondences from a point in the query image to a local region in the target image, which often struggle with homogeneous regions or repetitive features, leading to matching ambiguities. LocoTrack overcomes this challenge with a novel approach that utilizes all-pair correspondences across regions, i.e., local 4D correlation, to establish precise correspondences, with bidirectional correspondence and matching smoothness significantly enhancing robustness against ambiguities. We also incorporate a lightweight correlation encoder to enhance computational efficiency, and a compact Transformer architecture to integrate long-term temporal information. LocoTrack achieves unmatched accuracy on all TAP-Vid benchmarks and operates at a speed almost 6 times faster than the current state-of-the-art.
PDF62February 8, 2026