Rastreamento de Qualquer Ponto Auto-supervisionado por Caminhadas Aleatórias Contrastivas
Self-Supervised Any-Point Tracking by Contrastive Random Walks
September 24, 2024
Autores: Ayush Shrivastava, Andrew Owens
cs.AI
Resumo
Apresentamos uma abordagem simples e auto-supervisionada para o problema de Rastreamento de Qualquer Ponto (TAP). Treinamos um transformador de correspondência global para encontrar trajetórias consistentes através de vídeos via caminhadas aleatórias contrastivas, utilizando a correspondência global baseada em atenção do transformador para definir as matrizes de transição para uma caminhada aleatória em um grafo espaço-temporal. A capacidade de realizar comparações "entre todos os pares" entre pontos permite que o modelo obtenha alta precisão espacial e um forte sinal de aprendizado contrastivo, evitando muitas das complexidades de abordagens recentes (como correspondência grosseira a fina). Para isso, propomos uma série de decisões de projeto que permitem que arquiteturas de correspondência global sejam treinadas por auto-supervisão usando consistência cíclica. Por exemplo, identificamos que métodos baseados em transformadores são sensíveis a soluções de atalho e propomos um esquema de aumento de dados para abordá-las. Nosso método alcança um desempenho robusto nos benchmarks do TapVid, superando métodos de rastreamento auto-supervisionados anteriores, como DIFT, e é competitivo com vários métodos supervisionados.
English
We present a simple, self-supervised approach to the Tracking Any Point (TAP)
problem. We train a global matching transformer to find cycle consistent tracks
through video via contrastive random walks, using the transformer's
attention-based global matching to define the transition matrices for a random
walk on a space-time graph. The ability to perform "all pairs" comparisons
between points allows the model to obtain high spatial precision and to obtain
a strong contrastive learning signal, while avoiding many of the complexities
of recent approaches (such as coarse-to-fine matching). To do this, we propose
a number of design decisions that allow global matching architectures to be
trained through self-supervision using cycle consistency. For example, we
identify that transformer-based methods are sensitive to shortcut solutions,
and propose a data augmentation scheme to address them. Our method achieves
strong performance on the TapVid benchmarks, outperforming previous
self-supervised tracking methods, such as DIFT, and is competitive with several
supervised methods.Summary
AI-Generated Summary