CoTracker: É Melhor Rastrear Juntos

Resumo

Métodos para previsão de movimento em vídeo estimam conjuntamente o movimento instantâneo de todos os pontos em um determinado quadro de vídeo usando fluxo óptico ou rastreiam independentemente o movimento de pontos individuais ao longo do vídeo. Isso é verdade mesmo para métodos avançados de aprendizado profundo que conseguem rastrear pontos através de oclusões. Rastrear pontos individualmente ignora a forte correlação que pode existir entre os pontos, por exemplo, porque eles pertencem ao mesmo objeto físico, o que pode prejudicar o desempenho. Neste artigo, propomos, portanto, o CoTracker, uma arquitetura que rastreia conjuntamente múltiplos pontos ao longo de um vídeo inteiro. Essa arquitetura combina várias ideias da literatura de fluxo óptico e rastreamento em um novo design flexível e poderoso. Ela é baseada em uma rede transformer que modela a correlação de diferentes pontos no tempo por meio de camadas de atenção especializadas. O transformer atualiza iterativamente uma estimativa de várias trajetórias. Ele pode ser aplicado de maneira deslizante em vídeos muito longos, para os quais projetamos um loop de treinamento desenrolado. Ele pode rastrear de um a vários pontos conjuntamente e suporta a adição de novos pontos para rastrear a qualquer momento. O resultado é um algoritmo de rastreamento flexível e poderoso que supera métodos state-of-the-art em quase todos os benchmarks.

English

Methods for video motion prediction either estimate jointly the instantaneous motion of all points in a given video frame using optical flow or independently track the motion of individual points throughout the video. The latter is true even for powerful deep-learning methods that can track points through occlusions. Tracking points individually ignores the strong correlation that can exist between the points, for instance, because they belong to the same physical object, potentially harming performance. In this paper, we thus propose CoTracker, an architecture that jointly tracks multiple points throughout an entire video. This architecture combines several ideas from the optical flow and tracking literature in a new, flexible and powerful design. It is based on a transformer network that models the correlation of different points in time via specialised attention layers. The transformer iteratively updates an estimate of several trajectories. It can be applied in a sliding-window manner to very long videos, for which we engineer an unrolled training loop. It can track from one to several points jointly and supports adding new points to track at any time. The result is a flexible and powerful tracking algorithm that outperforms state-of-the-art methods in almost all benchmarks.

CoTracker: É Melhor Rastrear Juntos

CoTracker: It is Better to Track Together

Resumo

Support