Zelftoezicht op elk punt volgen door contrastieve willekeurige wandelingen
Self-Supervised Any-Point Tracking by Contrastive Random Walks
September 24, 2024
Auteurs: Ayush Shrivastava, Andrew Owens
cs.AI
Samenvatting
We presenteren een eenvoudige, zelftoezichtbenadering voor het Probleem van het Volgen van Elk Punt (TAP). We trainen een wereldwijde overeenkomsttransformator om cyclisch consistente sporen te vinden in video's via contrastieve willekeurige wandelingen, waarbij de op aandacht gebaseerde wereldwijde overeenkomst van de transformator wordt gebruikt om de overgangsmatrices te definiëren voor een willekeurige wandeling op een ruimte-tijdgrafiek. De mogelijkheid om "alle paren" vergelijkingen tussen punten uit te voeren stelt het model in staat om een hoge ruimtelijke precisie te verkrijgen en een sterk contrastief leersignaal te verkrijgen, terwijl het vele complexiteiten vermijdt van recente benaderingen (zoals grof-naar-fijn overeenkomsten). Hiervoor stellen we een aantal ontwerpbeslissingen voor die wereldwijde overeenkomstarchitecturen in staat stellen om te worden getraind via zelftoezicht met behulp van cyclische consistentie. Zo identificeren we bijvoorbeeld dat op transformer gebaseerde methoden gevoelig zijn voor shortcuts, en stellen we een gegevensaugmentatieschema voor om deze aan te pakken. Onze methode behaalt sterke prestaties op de TapVid-benchmarks, overtreft eerdere zelftoezichtvolgmethoden, zoals DIFT, en is concurrerend met verschillende begeleide methoden.
English
We present a simple, self-supervised approach to the Tracking Any Point (TAP)
problem. We train a global matching transformer to find cycle consistent tracks
through video via contrastive random walks, using the transformer's
attention-based global matching to define the transition matrices for a random
walk on a space-time graph. The ability to perform "all pairs" comparisons
between points allows the model to obtain high spatial precision and to obtain
a strong contrastive learning signal, while avoiding many of the complexities
of recent approaches (such as coarse-to-fine matching). To do this, we propose
a number of design decisions that allow global matching architectures to be
trained through self-supervision using cycle consistency. For example, we
identify that transformer-based methods are sensitive to shortcut solutions,
and propose a data augmentation scheme to address them. Our method achieves
strong performance on the TapVid benchmarks, outperforming previous
self-supervised tracking methods, such as DIFT, and is competitive with several
supervised methods.Summary
AI-Generated Summary