ChatPaper.aiChatPaper

Selbstüberwachtes Tracking von beliebigen Punkten durch kontrastive zufällige Spaziergänge

Self-Supervised Any-Point Tracking by Contrastive Random Walks

September 24, 2024
Autoren: Ayush Shrivastava, Andrew Owens
cs.AI

Zusammenfassung

Wir präsentieren einen einfachen, selbstüberwachten Ansatz für das Problem des Verfolgens beliebiger Punkte (TAP). Wir trainieren einen globalen Matching-Transformer, um zyklisch konsistente Spuren durch Videos mithilfe kontrastiver Zufallswanderungen zu finden, wobei die auf Aufmerksamkeit basierende globale Zuordnung des Transformers verwendet wird, um die Übergangsmatrizen für eine Zufallswanderung auf einem Raum-Zeit-Graph zu definieren. Die Fähigkeit, "Alle-Paare"-Vergleiche zwischen Punkten durchzuführen, ermöglicht es dem Modell, eine hohe räumliche Präzision zu erzielen und ein starkes kontrastives Lernsignal zu erhalten, während viele der Komplexitäten aktueller Ansätze (wie grob-zu-feines Matching) vermieden werden. Hierfür schlagen wir eine Reihe von Designentscheidungen vor, die es globalen Matching-Architekturen ermöglichen, durch Selbstüberwachung unter Verwendung von Zykluskonsistenz trainiert zu werden. Beispielsweise stellen wir fest, dass auf Transformer basierende Methoden empfindlich auf Shortcut-Lösungen reagieren und schlagen ein Datenaugmentierungsschema vor, um diese zu behandeln. Unsere Methode erzielt starke Leistungen auf den TapVid-Benchmarks, übertrifft bisherige selbstüberwachte Tracking-Methoden wie DIFT und ist wettbewerbsfähig mit mehreren überwachten Methoden.
English
We present a simple, self-supervised approach to the Tracking Any Point (TAP) problem. We train a global matching transformer to find cycle consistent tracks through video via contrastive random walks, using the transformer's attention-based global matching to define the transition matrices for a random walk on a space-time graph. The ability to perform "all pairs" comparisons between points allows the model to obtain high spatial precision and to obtain a strong contrastive learning signal, while avoiding many of the complexities of recent approaches (such as coarse-to-fine matching). To do this, we propose a number of design decisions that allow global matching architectures to be trained through self-supervision using cycle consistency. For example, we identify that transformer-based methods are sensitive to shortcut solutions, and propose a data augmentation scheme to address them. Our method achieves strong performance on the TapVid benchmarks, outperforming previous self-supervised tracking methods, such as DIFT, and is competitive with several supervised methods.

Summary

AI-Generated Summary

PDF72November 16, 2024