Seguimiento de cualquier punto auto-supervisado mediante caminatas aleatorias contrastivas.
Self-Supervised Any-Point Tracking by Contrastive Random Walks
September 24, 2024
Autores: Ayush Shrivastava, Andrew Owens
cs.AI
Resumen
Presentamos un enfoque simple y auto-supervisado para el problema de Seguimiento de Cualquier Punto (TAP). Entrenamos un transformador de coincidencia global para encontrar pistas consistentes en ciclos a través de videos mediante paseos aleatorios contrastivos, utilizando la coincidencia global basada en atención del transformador para definir las matrices de transición para un paseo aleatorio en un grafo espacio-temporal. La capacidad de realizar comparaciones "entre todos los pares" entre puntos permite que el modelo obtenga una alta precisión espacial y un fuerte señal de aprendizaje contrastivo, evitando muchas de las complejidades de enfoques recientes (como la coincidencia de grueso a fino). Para lograr esto, proponemos una serie de decisiones de diseño que permiten que las arquitecturas de coincidencia global sean entrenadas a través de auto-supervisión utilizando consistencia de ciclos. Por ejemplo, identificamos que los métodos basados en transformadores son sensibles a soluciones rápidas, y proponemos un esquema de aumento de datos para abordarlos. Nuestro método logra un rendimiento sólido en los benchmarks de TapVid, superando a métodos de seguimiento auto-supervisados anteriores, como DIFT, y es competitivo con varios métodos supervisados.
English
We present a simple, self-supervised approach to the Tracking Any Point (TAP)
problem. We train a global matching transformer to find cycle consistent tracks
through video via contrastive random walks, using the transformer's
attention-based global matching to define the transition matrices for a random
walk on a space-time graph. The ability to perform "all pairs" comparisons
between points allows the model to obtain high spatial precision and to obtain
a strong contrastive learning signal, while avoiding many of the complexities
of recent approaches (such as coarse-to-fine matching). To do this, we propose
a number of design decisions that allow global matching architectures to be
trained through self-supervision using cycle consistency. For example, we
identify that transformer-based methods are sensitive to shortcut solutions,
and propose a data augmentation scheme to address them. Our method achieves
strong performance on the TapVid benchmarks, outperforming previous
self-supervised tracking methods, such as DIFT, and is competitive with several
supervised methods.Summary
AI-Generated Summary