Tracciamento di Punti Senza Supervisione tramite Passeggiate Casuali Contrastive.

Abstract

Presentiamo un approccio semplice e auto-supervisionato al problema del Tracking di Qualsiasi Punto (TAP). Alleniamo un trasformatore di corrispondenza globale per trovare tracce coerenti ciclicamente attraverso video tramite passeggiate casuali contrastive, utilizzando la corrispondenza globale basata sull'attenzione del trasformatore per definire le matrici di transizione per una passeggiata casuale su un grafo spazio-temporale. La capacità di effettuare confronti "tra tutte le coppie" tra i punti consente al modello di ottenere un'alta precisione spaziale e di ottenere un forte segnale di apprendimento contrastivo, evitando molte delle complessità degli approcci recenti (come il matching da grezzo a fine). A tal fine, proponiamo una serie di decisioni progettuali che consentono alle architetture di corrispondenza globale di essere addestrate tramite auto-supervisione utilizzando la coerenza ciclica. Ad esempio, identifichiamo che i metodi basati su trasformatori sono sensibili alle soluzioni di scorciatoia e proponiamo uno schema di aumento dei dati per affrontarle. Il nostro metodo ottiene ottime prestazioni sui benchmark di TapVid, superando i precedenti metodi di tracciamento auto-supervisionati, come DIFT, ed è competitivo con diversi metodi supervisionati.

English

We present a simple, self-supervised approach to the Tracking Any Point (TAP) problem. We train a global matching transformer to find cycle consistent tracks through video via contrastive random walks, using the transformer's attention-based global matching to define the transition matrices for a random walk on a space-time graph. The ability to perform "all pairs" comparisons between points allows the model to obtain high spatial precision and to obtain a strong contrastive learning signal, while avoiding many of the complexities of recent approaches (such as coarse-to-fine matching). To do this, we propose a number of design decisions that allow global matching architectures to be trained through self-supervision using cycle consistency. For example, we identify that transformer-based methods are sensitive to shortcut solutions, and propose a data augmentation scheme to address them. Our method achieves strong performance on the TapVid benchmarks, outperforming previous self-supervised tracking methods, such as DIFT, and is competitive with several supervised methods.

Tracciamento di Punti Senza Supervisione tramite Passeggiate Casuali Contrastive.

Self-Supervised Any-Point Tracking by Contrastive Random Walks

Abstract

Summary

Support

Support