CoTracker : Il est préférable de suivre ensemble
CoTracker: It is Better to Track Together
July 14, 2023
Auteurs: Nikita Karaev, Ignacio Rocco, Benjamin Graham, Natalia Neverova, Andrea Vedaldi, Christian Rupprecht
cs.AI
Résumé
Les méthodes de prédiction du mouvement dans les vidéos estiment soit conjointement le mouvement instantané de tous les points dans une image vidéo donnée en utilisant le flux optique, soit suivent indépendamment le mouvement de points individuels tout au long de la vidéo. Ce dernier cas est vrai même pour les méthodes puissantes basées sur l'apprentissage profond qui peuvent suivre des points à travers des occlusions. Suivre les points individuellement ignore la forte corrélation qui peut exister entre les points, par exemple parce qu'ils appartiennent au même objet physique, ce qui peut nuire aux performances. Dans cet article, nous proposons donc CoTracker, une architecture qui suit conjointement plusieurs points tout au long d'une vidéo entière. Cette architecture combine plusieurs idées issues de la littérature sur le flux optique et le suivi dans une conception nouvelle, flexible et puissante. Elle repose sur un réseau de type transformer qui modélise la corrélation entre différents points dans le temps via des couches d'attention spécialisées. Le transformer met à jour itérativement une estimation de plusieurs trajectoires. Il peut être appliqué de manière glissante à des vidéos très longues, pour lesquelles nous concevons une boucle d'entraînement déroulée. Il peut suivre conjointement d'un à plusieurs points et permet d'ajouter de nouveaux points à suivre à tout moment. Le résultat est un algorithme de suivi flexible et puissant qui surpasse les méthodes de pointe dans presque tous les benchmarks.
English
Methods for video motion prediction either estimate jointly the instantaneous
motion of all points in a given video frame using optical flow or independently
track the motion of individual points throughout the video. The latter is true
even for powerful deep-learning methods that can track points through
occlusions. Tracking points individually ignores the strong correlation that
can exist between the points, for instance, because they belong to the same
physical object, potentially harming performance. In this paper, we thus
propose CoTracker, an architecture that jointly tracks multiple points
throughout an entire video. This architecture combines several ideas from the
optical flow and tracking literature in a new, flexible and powerful design. It
is based on a transformer network that models the correlation of different
points in time via specialised attention layers. The transformer iteratively
updates an estimate of several trajectories. It can be applied in a
sliding-window manner to very long videos, for which we engineer an unrolled
training loop. It can track from one to several points jointly and supports
adding new points to track at any time. The result is a flexible and powerful
tracking algorithm that outperforms state-of-the-art methods in almost all
benchmarks.