ChatPaper.aiChatPaper

Corrispondenza Locale Tutte le Coppie per il Tracciamento dei Punti

Local All-Pair Correspondence for Point Tracking

July 22, 2024
Autori: Seokju Cho, Jiahui Huang, Jisu Nam, Honggyu An, Seungryong Kim, Joon-Young Lee
cs.AI

Abstract

Presentiamo LocoTrack, un modello altamente preciso ed efficiente progettato per il compito di tracciamento di qualsiasi punto (TAP) attraverso sequenze video. Gli approcci precedenti in questo compito si basano spesso su mappe di correlazione 2D locali per stabilire corrispondenze da un punto nell'immagine di query a una regione locale nell'immagine target, il che spesso incontra difficoltà con regioni omogenee o caratteristiche ripetitive, portando ad ambiguità di corrispondenza. LocoTrack supera questa sfida con un approccio innovativo che utilizza corrispondenze a coppie complete tra regioni, ovvero correlazione 4D locale, per stabilire corrispondenze precise, con una corrispondenza bidirezionale e una fluidità di matching che migliorano significativamente la robustezza contro le ambiguità. Incorporiamo inoltre un codificatore di correlazione leggero per migliorare l'efficienza computazionale e un'architettura Transformer compatta per integrare informazioni temporali a lungo termine. LocoTrack raggiunge una precisione senza pari su tutti i benchmark TAP-Vid e opera a una velocità quasi 6 volte superiore rispetto allo stato dell'arte attuale.
English
We introduce LocoTrack, a highly accurate and efficient model designed for the task of tracking any point (TAP) across video sequences. Previous approaches in this task often rely on local 2D correlation maps to establish correspondences from a point in the query image to a local region in the target image, which often struggle with homogeneous regions or repetitive features, leading to matching ambiguities. LocoTrack overcomes this challenge with a novel approach that utilizes all-pair correspondences across regions, i.e., local 4D correlation, to establish precise correspondences, with bidirectional correspondence and matching smoothness significantly enhancing robustness against ambiguities. We also incorporate a lightweight correlation encoder to enhance computational efficiency, and a compact Transformer architecture to integrate long-term temporal information. LocoTrack achieves unmatched accuracy on all TAP-Vid benchmarks and operates at a speed almost 6 times faster than the current state-of-the-art.
PDF62November 28, 2024