포인트 트래킹을 위한 지역적 전체 쌍 대응
Local All-Pair Correspondence for Point Tracking
July 22, 2024
저자: Seokju Cho, Jiahui Huang, Jisu Nam, Honggyu An, Seungryong Kim, Joon-Young Lee
cs.AI
초록
LocoTrack은 비디오 시퀀스에서 임의의 점을 추적(TAP)하는 작업을 위해 설계된 고정확도 및 고효율 모델입니다. 이전의 접근 방식들은 주로 쿼리 이미지의 한 점과 타겟 이미지의 지역적 영역 간의 대응 관계를 설정하기 위해 지역적 2D 상관 맵에 의존했는데, 이는 동질적인 영역이나 반복적인 특징에서 매칭 모호성이 발생하는 문제가 있었습니다. LocoTrack은 이러한 문제를 극복하기 위해 지역적 4D 상관, 즉 모든 영역 간의 전체 쌍 대응 관계를 활용하는 새로운 접근 방식을 도입했습니다. 이를 통해 양방향 대응 관계와 매칭 부드러움이 모호성에 대한 강건성을 크게 향상시켰습니다. 또한, 계산 효율성을 높이기 위해 경량화된 상관 인코더를 통합하고, 장기적인 시간 정보를 통합하기 위해 컴팩트한 Transformer 아키텍처를 사용했습니다. LocoTrack은 모든 TAP-Vid 벤치마크에서 뛰어난 정확도를 달성하며, 현재 최첨단 기술 대비 거의 6배 빠른 속도로 동작합니다.
English
We introduce LocoTrack, a highly accurate and efficient model designed for
the task of tracking any point (TAP) across video sequences. Previous
approaches in this task often rely on local 2D correlation maps to establish
correspondences from a point in the query image to a local region in the target
image, which often struggle with homogeneous regions or repetitive features,
leading to matching ambiguities. LocoTrack overcomes this challenge with a
novel approach that utilizes all-pair correspondences across regions, i.e.,
local 4D correlation, to establish precise correspondences, with bidirectional
correspondence and matching smoothness significantly enhancing robustness
against ambiguities. We also incorporate a lightweight correlation encoder to
enhance computational efficiency, and a compact Transformer architecture to
integrate long-term temporal information. LocoTrack achieves unmatched accuracy
on all TAP-Vid benchmarks and operates at a speed almost 6 times faster than
the current state-of-the-art.Summary
AI-Generated Summary