ChatPaper.aiChatPaper

Lokale All-Paar-Korrespondenz für Punktverfolgung

Local All-Pair Correspondence for Point Tracking

July 22, 2024
Autoren: Seokju Cho, Jiahui Huang, Jisu Nam, Honggyu An, Seungryong Kim, Joon-Young Lee
cs.AI

Zusammenfassung

Wir stellen LocoTrack vor, ein äußerst präzises und effizientes Modell, das für die Aufgabe des Verfolgens eines beliebigen Punktes (TAP) in Videosequenzen entwickelt wurde. Frühere Ansätze für diese Aufgabe stützen sich oft auf lokale 2D-Korrelationskarten, um Korrespondenzen von einem Punkt im Abfragebild zu einer lokalen Region im Zielbild herzustellen. Diese Ansätze haben häufig Schwierigkeiten mit homogenen Regionen oder sich wiederholenden Merkmalen, was zu Übereinstimmungsunklarheiten führt. LocoTrack überwindet diese Herausforderung mit einem innovativen Ansatz, der alle Paarkorrespondenzen über Regionen, d.h. lokale 4D-Korrelation, nutzt, um präzise Korrespondenzen herzustellen. Die bidirektionale Korrespondenz und die Übereinstimmungsglättung verbessern die Robustheit gegen Unklarheiten signifikant. Wir integrieren auch einen leichten Korrelationsencoder, um die Rechenleistung zu verbessern, und eine kompakte Transformer-Architektur, um langfristige zeitliche Informationen zu integrieren. LocoTrack erzielt eine unübertroffene Genauigkeit auf allen TAP-Vid-Benchmarks und arbeitet fast 6-mal schneller als der derzeitige Stand der Technik.
English
We introduce LocoTrack, a highly accurate and efficient model designed for the task of tracking any point (TAP) across video sequences. Previous approaches in this task often rely on local 2D correlation maps to establish correspondences from a point in the query image to a local region in the target image, which often struggle with homogeneous regions or repetitive features, leading to matching ambiguities. LocoTrack overcomes this challenge with a novel approach that utilizes all-pair correspondences across regions, i.e., local 4D correlation, to establish precise correspondences, with bidirectional correspondence and matching smoothness significantly enhancing robustness against ambiguities. We also incorporate a lightweight correlation encoder to enhance computational efficiency, and a compact Transformer architecture to integrate long-term temporal information. LocoTrack achieves unmatched accuracy on all TAP-Vid benchmarks and operates at a speed almost 6 times faster than the current state-of-the-art.

Summary

AI-Generated Summary

PDF62November 28, 2024