ChatPaper.aiChatPaper

Suivi de points à n'importe quel endroit sans supervision par marches aléatoires contrastives

Self-Supervised Any-Point Tracking by Contrastive Random Walks

September 24, 2024
Auteurs: Ayush Shrivastava, Andrew Owens
cs.AI

Résumé

Nous présentons une approche simple et auto-supervisée pour résoudre le problème du suivi de n'importe quel point (TAP). Nous entraînons un transformateur de correspondance globale à trouver des pistes cohérentes à travers une vidéo en utilisant des marches aléatoires contrastives, en se basant sur la correspondance globale du transformateur pour définir les matrices de transition pour une marche aléatoire sur un graphe espace-temps. La capacité à effectuer des comparaisons "toutes paires" entre les points permet au modèle d'obtenir une haute précision spatiale et un fort signal d'apprentissage contrastif, tout en évitant bon nombre des complexités des approches récentes (telles que la correspondance grossière à fine). Pour ce faire, nous proposons un certain nombre de décisions de conception qui permettent aux architectures de correspondance globale d'être entraînées par auto-supervision en utilisant la cohérence cyclique. Par exemple, nous identifions que les méthodes basées sur les transformateurs sont sensibles aux solutions de raccourci, et proposons un schéma d'augmentation des données pour y remédier. Notre méthode atteint de solides performances sur les benchmarks TapVid, surpassant les méthodes de suivi auto-supervisées précédentes, telles que DIFT, et est compétitive avec plusieurs méthodes supervisées.
English
We present a simple, self-supervised approach to the Tracking Any Point (TAP) problem. We train a global matching transformer to find cycle consistent tracks through video via contrastive random walks, using the transformer's attention-based global matching to define the transition matrices for a random walk on a space-time graph. The ability to perform "all pairs" comparisons between points allows the model to obtain high spatial precision and to obtain a strong contrastive learning signal, while avoiding many of the complexities of recent approaches (such as coarse-to-fine matching). To do this, we propose a number of design decisions that allow global matching architectures to be trained through self-supervision using cycle consistency. For example, we identify that transformer-based methods are sensitive to shortcut solutions, and propose a data augmentation scheme to address them. Our method achieves strong performance on the TapVid benchmarks, outperforming previous self-supervised tracking methods, such as DIFT, and is competitive with several supervised methods.

Summary

AI-Generated Summary

PDF72November 16, 2024