ChatPaper.aiChatPaper

UFM: Ein einfacher Weg zur einheitlichen dichten Korrespondenz mit Fluss

UFM: A Simple Path towards Unified Dense Correspondence with Flow

June 10, 2025
Autoren: Yuchen Zhang, Nikhil Keetha, Chenwei Lyu, Bhuvan Jhamb, Yutian Chen, Yuheng Qiu, Jay Karhade, Shreyas Jha, Yaoyu Hu, Deva Ramanan, Sebastian Scherer, Wenshan Wang
cs.AI

Zusammenfassung

Dichte Bildkorrespondenz ist zentral für viele Anwendungen, wie visuelle Odometrie, 3D-Rekonstruktion, Objektzuordnung und Re-Identifikation. Historisch wurde die dichte Korrespondenz getrennt für Szenarien mit großer Basislinie und für die Schätzung des optischen Flusses behandelt, obwohl das gemeinsame Ziel darin besteht, Inhalte zwischen zwei Bildern abzugleichen. In diesem Artikel entwickeln wir ein Unified Flow & Matching-Modell (UFM), das auf vereinheitlichten Daten für Pixel trainiert wird, die sowohl im Quell- als auch im Zielbild sichtbar sind. UFM verwendet eine einfache, generische Transformer-Architektur, die direkt den (u,v)-Fluss regressiert. Es ist einfacher zu trainieren und genauer für große Flüsse im Vergleich zu den typischen grob-zu-fein-Kostenvolumina in früheren Arbeiten. UFM ist 28 % genauer als state-of-the-art Flussmethoden (Unimatch), hat gleichzeitig 62 % weniger Fehler und ist 6,7-mal schneller als dichte Wide-Baseline-Matcher (RoMa). UFM ist das erste Modell, das zeigt, dass vereinheitlichtes Training spezialisierte Ansätze in beiden Domänen übertreffen kann. Dieses Ergebnis ermöglicht schnelle, allgemeine Korrespondenz und eröffnet neue Richtungen für multimodale, langreichweitige und Echtzeit-Korrespondenzaufgaben.
English
Dense image correspondence is central to many applications, such as visual odometry, 3D reconstruction, object association, and re-identification. Historically, dense correspondence has been tackled separately for wide-baseline scenarios and optical flow estimation, despite the common goal of matching content between two images. In this paper, we develop a Unified Flow & Matching model (UFM), which is trained on unified data for pixels that are co-visible in both source and target images. UFM uses a simple, generic transformer architecture that directly regresses the (u,v) flow. It is easier to train and more accurate for large flows compared to the typical coarse-to-fine cost volumes in prior work. UFM is 28% more accurate than state-of-the-art flow methods (Unimatch), while also having 62% less error and 6.7x faster than dense wide-baseline matchers (RoMa). UFM is the first to demonstrate that unified training can outperform specialized approaches across both domains. This result enables fast, general-purpose correspondence and opens new directions for multi-modal, long-range, and real-time correspondence tasks.
PDF52June 12, 2025