Correspondência Local de Todos os Pares para Rastreamento de Pontos
Local All-Pair Correspondence for Point Tracking
July 22, 2024
Autores: Seokju Cho, Jiahui Huang, Jisu Nam, Honggyu An, Seungryong Kim, Joon-Young Lee
cs.AI
Resumo
Apresentamos o LocoTrack, um modelo altamente preciso e eficiente projetado para a tarefa de rastreamento de qualquer ponto (TAP) em sequências de vídeo. Abordagens anteriores nessa tarefa frequentemente dependem de mapas de correlação 2D locais para estabelecer correspondências de um ponto na imagem de consulta a uma região local na imagem-alvo, o que frequentemente enfrenta dificuldades com regiões homogêneas ou características repetitivas, levando a ambiguidades de correspondência. O LocoTrack supera esse desafio com uma abordagem inovadora que utiliza correspondências de todos os pares entre regiões, ou seja, correlação 4D local, para estabelecer correspondências precisas, com correspondência bidirecional e suavidade de correspondência aumentando significativamente a robustez contra ambiguidades. Também incorporamos um codificador de correlação leve para aumentar a eficiência computacional, e uma arquitetura compacta de Transformer para integrar informações temporais de longo prazo. O LocoTrack alcança uma precisão incomparável em todos os benchmarks TAP-Vid e opera a uma velocidade quase 6 vezes mais rápida do que o estado-da-arte atual.
English
We introduce LocoTrack, a highly accurate and efficient model designed for
the task of tracking any point (TAP) across video sequences. Previous
approaches in this task often rely on local 2D correlation maps to establish
correspondences from a point in the query image to a local region in the target
image, which often struggle with homogeneous regions or repetitive features,
leading to matching ambiguities. LocoTrack overcomes this challenge with a
novel approach that utilizes all-pair correspondences across regions, i.e.,
local 4D correlation, to establish precise correspondences, with bidirectional
correspondence and matching smoothness significantly enhancing robustness
against ambiguities. We also incorporate a lightweight correlation encoder to
enhance computational efficiency, and a compact Transformer architecture to
integrate long-term temporal information. LocoTrack achieves unmatched accuracy
on all TAP-Vid benchmarks and operates at a speed almost 6 times faster than
the current state-of-the-art.