Локальное соответствие всех пар точек для отслеживания движения.
Local All-Pair Correspondence for Point Tracking
July 22, 2024
Авторы: Seokju Cho, Jiahui Huang, Jisu Nam, Honggyu An, Seungryong Kim, Joon-Young Lee
cs.AI
Аннотация
Мы представляем LocoTrack, высокоточную и эффективную модель, разработанную для задачи отслеживания любой точки (TAP) в видеопоследовательностях. Предыдущие подходы к этой задаче часто полагаются на локальные 2D карты корреляции для установления соответствий от точки на исходном изображении к локальной области на целевом изображении, что часто затрудняет ситуацию с однородными областями или повторяющимися элементами, что приводит к неоднозначностям в соответствии. LocoTrack преодолевает этот вызов с помощью нового подхода, который использует соответствия всех пар областей, то есть локальная 4D корреляция, для установления точных соответствий, с двусторонним соответствием и гладкостью соответствия, значительно повышающими устойчивость к неоднозначностям. Мы также внедрили легкий кодировщик корреляции для улучшения вычислительной эффективности и компактную архитектуру Трансформера для интеграции долгосрочной временной информации. LocoTrack достигает непревзойденной точности на всех бенчмарках TAP-Vid и работает со скоростью почти в 6 раз быстрее, чем текущий передовой уровень.
English
We introduce LocoTrack, a highly accurate and efficient model designed for
the task of tracking any point (TAP) across video sequences. Previous
approaches in this task often rely on local 2D correlation maps to establish
correspondences from a point in the query image to a local region in the target
image, which often struggle with homogeneous regions or repetitive features,
leading to matching ambiguities. LocoTrack overcomes this challenge with a
novel approach that utilizes all-pair correspondences across regions, i.e.,
local 4D correlation, to establish precise correspondences, with bidirectional
correspondence and matching smoothness significantly enhancing robustness
against ambiguities. We also incorporate a lightweight correlation encoder to
enhance computational efficiency, and a compact Transformer architecture to
integrate long-term temporal information. LocoTrack achieves unmatched accuracy
on all TAP-Vid benchmarks and operates at a speed almost 6 times faster than
the current state-of-the-art.Summary
AI-Generated Summary