CoTracker: 함께 추적하는 것이 더 효과적입니다
CoTracker: It is Better to Track Together
July 14, 2023
저자: Nikita Karaev, Ignacio Rocco, Benjamin Graham, Natalia Neverova, Andrea Vedaldi, Christian Rupprecht
cs.AI
초록
비디오 동작 예측을 위한 방법들은 주어진 비디오 프레임 내 모든 점들의 순간적인 움직임을 광학 흐름(optical flow)을 사용해 공동으로 추정하거나, 개별 점들의 움직임을 비디오 전체에 걸쳐 독립적으로 추적합니다. 후자의 경우, 심지어 가려짐(occlusion) 상황에서도 점들을 추적할 수 있는 강력한 딥러닝 방법들에서도 마찬가지입니다. 개별 점들을 추적하는 방식은 점들 간에 존재할 수 있는 강한 상관관계를 무시하는데, 예를 들어 동일한 물리적 객체에 속하는 경우가 이에 해당하며, 이는 성능 저하를 초래할 수 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 CoTracker라는 아키텍처를 제안합니다. 이 아키텍처는 전체 비디오에 걸쳐 여러 점들을 공동으로 추적하는 방식으로, 광학 흐름 및 추적 관련 문헌에서 얻은 여러 아이디어를 새로운 유연하고 강력한 설계로 결합합니다. 이는 특수화된 어텐션 레이어를 통해 시간에 따른 서로 다른 점들의 상관관계를 모델링하는 트랜스포머 네트워크를 기반으로 합니다. 트랜스포머는 여러 궤적의 추정치를 반복적으로 업데이트하며, 매우 긴 비디오에 대해서는 슬라이딩 윈도우 방식으로 적용할 수 있도록 펼쳐진(unrolled) 훈련 루프를 설계했습니다. 이는 하나에서 여러 점까지 공동으로 추적할 수 있으며, 언제든지 새로운 추적 점을 추가하는 것도 지원합니다. 그 결과, 거의 모든 벤치마크에서 최신 기술을 능가하는 유연하고 강력한 추적 알고리즘이 탄생했습니다.
English
Methods for video motion prediction either estimate jointly the instantaneous
motion of all points in a given video frame using optical flow or independently
track the motion of individual points throughout the video. The latter is true
even for powerful deep-learning methods that can track points through
occlusions. Tracking points individually ignores the strong correlation that
can exist between the points, for instance, because they belong to the same
physical object, potentially harming performance. In this paper, we thus
propose CoTracker, an architecture that jointly tracks multiple points
throughout an entire video. This architecture combines several ideas from the
optical flow and tracking literature in a new, flexible and powerful design. It
is based on a transformer network that models the correlation of different
points in time via specialised attention layers. The transformer iteratively
updates an estimate of several trajectories. It can be applied in a
sliding-window manner to very long videos, for which we engineer an unrolled
training loop. It can track from one to several points jointly and supports
adding new points to track at any time. The result is a flexible and powerful
tracking algorithm that outperforms state-of-the-art methods in almost all
benchmarks.