Самообучаемое отслеживание точек с помощью контрастных случайных блужданий.
Self-Supervised Any-Point Tracking by Contrastive Random Walks
September 24, 2024
Авторы: Ayush Shrivastava, Andrew Owens
cs.AI
Аннотация
Мы представляем простой метод самообучения для решения проблемы отслеживания любой точки (TAP). Мы обучаем глобальный трансформер сопоставления для нахождения циклически последовательных треков через видео с помощью контрастных случайных блужданий, используя внимание глобального сопоставления трансформера для определения матриц перехода для случайного блуждания по пространственно-временному графу. Возможность выполнять сравнения "все с всем" между точками позволяет модели достигать высокой пространственной точности и получать сильный сигнал контрастного обучения, избегая многих сложностей недавних подходов (таких как грубое-к точному сопоставлению). Для этого мы предлагаем ряд проектных решений, позволяющих обучать архитектуры глобального сопоставления через самообучение с использованием циклической последовательности. Например, мы выявляем, что методы на основе трансформеров чувствительны к быстрым решениям и предлагаем схему аугментации данных для их устранения. Наш метод демонстрирует высокую производительность на бенчмарках TapVid, превосходя предыдущие методы самообучения отслеживания, такие как DIFT, и конкурентоспособен с несколькими методами обучения с учителем.
English
We present a simple, self-supervised approach to the Tracking Any Point (TAP)
problem. We train a global matching transformer to find cycle consistent tracks
through video via contrastive random walks, using the transformer's
attention-based global matching to define the transition matrices for a random
walk on a space-time graph. The ability to perform "all pairs" comparisons
between points allows the model to obtain high spatial precision and to obtain
a strong contrastive learning signal, while avoiding many of the complexities
of recent approaches (such as coarse-to-fine matching). To do this, we propose
a number of design decisions that allow global matching architectures to be
trained through self-supervision using cycle consistency. For example, we
identify that transformer-based methods are sensitive to shortcut solutions,
and propose a data augmentation scheme to address them. Our method achieves
strong performance on the TapVid benchmarks, outperforming previous
self-supervised tracking methods, such as DIFT, and is competitive with several
supervised methods.Summary
AI-Generated Summary