Tracciamento di Punti Senza Supervisione tramite Passeggiate Casuali Contrastive.
Self-Supervised Any-Point Tracking by Contrastive Random Walks
September 24, 2024
Autori: Ayush Shrivastava, Andrew Owens
cs.AI
Abstract
Presentiamo un approccio semplice e auto-supervisionato al problema del Tracking di Qualsiasi Punto (TAP). Alleniamo un trasformatore di corrispondenza globale per trovare tracce coerenti ciclicamente attraverso video tramite passeggiate casuali contrastive, utilizzando la corrispondenza globale basata sull'attenzione del trasformatore per definire le matrici di transizione per una passeggiata casuale su un grafo spazio-temporale. La capacità di effettuare confronti "tra tutte le coppie" tra i punti consente al modello di ottenere un'alta precisione spaziale e di ottenere un forte segnale di apprendimento contrastivo, evitando molte delle complessità degli approcci recenti (come il matching da grezzo a fine). A tal fine, proponiamo una serie di decisioni progettuali che consentono alle architetture di corrispondenza globale di essere addestrate tramite auto-supervisione utilizzando la coerenza ciclica. Ad esempio, identifichiamo che i metodi basati su trasformatori sono sensibili alle soluzioni di scorciatoia e proponiamo uno schema di aumento dei dati per affrontarle. Il nostro metodo ottiene ottime prestazioni sui benchmark di TapVid, superando i precedenti metodi di tracciamento auto-supervisionati, come DIFT, ed è competitivo con diversi metodi supervisionati.
English
We present a simple, self-supervised approach to the Tracking Any Point (TAP)
problem. We train a global matching transformer to find cycle consistent tracks
through video via contrastive random walks, using the transformer's
attention-based global matching to define the transition matrices for a random
walk on a space-time graph. The ability to perform "all pairs" comparisons
between points allows the model to obtain high spatial precision and to obtain
a strong contrastive learning signal, while avoiding many of the complexities
of recent approaches (such as coarse-to-fine matching). To do this, we propose
a number of design decisions that allow global matching architectures to be
trained through self-supervision using cycle consistency. For example, we
identify that transformer-based methods are sensitive to shortcut solutions,
and propose a data augmentation scheme to address them. Our method achieves
strong performance on the TapVid benchmarks, outperforming previous
self-supervised tracking methods, such as DIFT, and is competitive with several
supervised methods.Summary
AI-Generated Summary