Zelftoezicht op elk punt volgen door contrastieve willekeurige wandelingen

Samenvatting

We presenteren een eenvoudige, zelftoezichtbenadering voor het Probleem van het Volgen van Elk Punt (TAP). We trainen een wereldwijde overeenkomsttransformator om cyclisch consistente sporen te vinden in video's via contrastieve willekeurige wandelingen, waarbij de op aandacht gebaseerde wereldwijde overeenkomst van de transformator wordt gebruikt om de overgangsmatrices te definiëren voor een willekeurige wandeling op een ruimte-tijdgrafiek. De mogelijkheid om "alle paren" vergelijkingen tussen punten uit te voeren stelt het model in staat om een hoge ruimtelijke precisie te verkrijgen en een sterk contrastief leersignaal te verkrijgen, terwijl het vele complexiteiten vermijdt van recente benaderingen (zoals grof-naar-fijn overeenkomsten). Hiervoor stellen we een aantal ontwerpbeslissingen voor die wereldwijde overeenkomstarchitecturen in staat stellen om te worden getraind via zelftoezicht met behulp van cyclische consistentie. Zo identificeren we bijvoorbeeld dat op transformer gebaseerde methoden gevoelig zijn voor shortcuts, en stellen we een gegevensaugmentatieschema voor om deze aan te pakken. Onze methode behaalt sterke prestaties op de TapVid-benchmarks, overtreft eerdere zelftoezichtvolgmethoden, zoals DIFT, en is concurrerend met verschillende begeleide methoden.

English

We present a simple, self-supervised approach to the Tracking Any Point (TAP) problem. We train a global matching transformer to find cycle consistent tracks through video via contrastive random walks, using the transformer's attention-based global matching to define the transition matrices for a random walk on a space-time graph. The ability to perform "all pairs" comparisons between points allows the model to obtain high spatial precision and to obtain a strong contrastive learning signal, while avoiding many of the complexities of recent approaches (such as coarse-to-fine matching). To do this, we propose a number of design decisions that allow global matching architectures to be trained through self-supervision using cycle consistency. For example, we identify that transformer-based methods are sensitive to shortcut solutions, and propose a data augmentation scheme to address them. Our method achieves strong performance on the TapVid benchmarks, outperforming previous self-supervised tracking methods, such as DIFT, and is competitive with several supervised methods.

Zelftoezicht op elk punt volgen door contrastieve willekeurige wandelingen

Self-Supervised Any-Point Tracking by Contrastive Random Walks

Samenvatting

Summary

Support

Support