ChatPaper.aiChatPaper

Correspondencia Local de Todos los Pares para el Seguimiento de Puntos

Local All-Pair Correspondence for Point Tracking

July 22, 2024
Autores: Seokju Cho, Jiahui Huang, Jisu Nam, Honggyu An, Seungryong Kim, Joon-Young Lee
cs.AI

Resumen

Presentamos LocoTrack, un modelo altamente preciso y eficiente diseñado para la tarea de rastrear cualquier punto (TAP) a lo largo de secuencias de video. Enfoques anteriores en esta tarea a menudo se basan en mapas de correlación 2D locales para establecer correspondencias desde un punto en la imagen de consulta hasta una región local en la imagen objetivo, lo que a menudo tiene dificultades con regiones homogéneas o características repetitivas, lo que conduce a ambigüedades en la coincidencia. LocoTrack supera este desafío con un enfoque novedoso que utiliza correspondencias de todos los pares a través de regiones, es decir, correlación 4D local, para establecer correspondencias precisas, con correspondencia bidireccional y suavidad de coincidencia que mejoran significativamente la robustez contra ambigüedades. También incorporamos un codificador de correlación liviano para mejorar la eficiencia computacional, y una arquitectura compacta de Transformer para integrar información temporal a largo plazo. LocoTrack logra una precisión inigualable en todos los benchmarks de TAP-Vid y opera a una velocidad casi 6 veces más rápida que el estado del arte actual.
English
We introduce LocoTrack, a highly accurate and efficient model designed for the task of tracking any point (TAP) across video sequences. Previous approaches in this task often rely on local 2D correlation maps to establish correspondences from a point in the query image to a local region in the target image, which often struggle with homogeneous regions or repetitive features, leading to matching ambiguities. LocoTrack overcomes this challenge with a novel approach that utilizes all-pair correspondences across regions, i.e., local 4D correlation, to establish precise correspondences, with bidirectional correspondence and matching smoothness significantly enhancing robustness against ambiguities. We also incorporate a lightweight correlation encoder to enhance computational efficiency, and a compact Transformer architecture to integrate long-term temporal information. LocoTrack achieves unmatched accuracy on all TAP-Vid benchmarks and operates at a speed almost 6 times faster than the current state-of-the-art.

Summary

AI-Generated Summary

PDF62November 28, 2024