CoTracker: É Melhor Rastrear Juntos
CoTracker: It is Better to Track Together
July 14, 2023
Autores: Nikita Karaev, Ignacio Rocco, Benjamin Graham, Natalia Neverova, Andrea Vedaldi, Christian Rupprecht
cs.AI
Resumo
Métodos para previsão de movimento em vídeo estimam conjuntamente o movimento instantâneo de todos os pontos em um determinado quadro de vídeo usando fluxo óptico ou rastreiam independentemente o movimento de pontos individuais ao longo do vídeo. Isso é verdade mesmo para métodos avançados de aprendizado profundo que conseguem rastrear pontos através de oclusões. Rastrear pontos individualmente ignora a forte correlação que pode existir entre os pontos, por exemplo, porque eles pertencem ao mesmo objeto físico, o que pode prejudicar o desempenho. Neste artigo, propomos, portanto, o CoTracker, uma arquitetura que rastreia conjuntamente múltiplos pontos ao longo de um vídeo inteiro. Essa arquitetura combina várias ideias da literatura de fluxo óptico e rastreamento em um novo design flexível e poderoso. Ela é baseada em uma rede transformer que modela a correlação de diferentes pontos no tempo por meio de camadas de atenção especializadas. O transformer atualiza iterativamente uma estimativa de várias trajetórias. Ele pode ser aplicado de maneira deslizante em vídeos muito longos, para os quais projetamos um loop de treinamento desenrolado. Ele pode rastrear de um a vários pontos conjuntamente e suporta a adição de novos pontos para rastrear a qualquer momento. O resultado é um algoritmo de rastreamento flexível e poderoso que supera métodos state-of-the-art em quase todos os benchmarks.
English
Methods for video motion prediction either estimate jointly the instantaneous
motion of all points in a given video frame using optical flow or independently
track the motion of individual points throughout the video. The latter is true
even for powerful deep-learning methods that can track points through
occlusions. Tracking points individually ignores the strong correlation that
can exist between the points, for instance, because they belong to the same
physical object, potentially harming performance. In this paper, we thus
propose CoTracker, an architecture that jointly tracks multiple points
throughout an entire video. This architecture combines several ideas from the
optical flow and tracking literature in a new, flexible and powerful design. It
is based on a transformer network that models the correlation of different
points in time via specialised attention layers. The transformer iteratively
updates an estimate of several trajectories. It can be applied in a
sliding-window manner to very long videos, for which we engineer an unrolled
training loop. It can track from one to several points jointly and supports
adding new points to track at any time. The result is a flexible and powerful
tracking algorithm that outperforms state-of-the-art methods in almost all
benchmarks.