ChatPaper.aiChatPaper

UFM: Een Eenvoudige Weg naar Uniforme Dichte Correspondentie met Flow

UFM: A Simple Path towards Unified Dense Correspondence with Flow

June 10, 2025
Auteurs: Yuchen Zhang, Nikhil Keetha, Chenwei Lyu, Bhuvan Jhamb, Yutian Chen, Yuheng Qiu, Jay Karhade, Shreyas Jha, Yaoyu Hu, Deva Ramanan, Sebastian Scherer, Wenshan Wang
cs.AI

Samenvatting

Dichte beeldcorrespondentie is essentieel voor veel toepassingen, zoals visuele odometrie, 3D-reconstructie, objectassociatie en heridentificatie. Historisch gezien is dichte correspondentie afzonderlijk aangepakt voor wide-baseline scenario's en optische stroomschatting, ondanks het gemeenschappelijke doel om inhoud tussen twee afbeeldingen te matchen. In dit artikel ontwikkelen we een Unified Flow & Matching model (UFM), dat wordt getraind op geünificeerde gegevens voor pixels die zichtbaar zijn in zowel de bron- als de doelafbeelding. UFM gebruikt een eenvoudige, generieke transformer-architectuur die direct de (u,v)-stroom regresseert. Het is eenvoudiger te trainen en nauwkeuriger voor grote stromen in vergelijking met de typische coarse-to-fine kostenvolumes in eerder werk. UFM is 28% nauwkeuriger dan state-of-the-art stroommethoden (Unimatch), terwijl het ook 62% minder fouten heeft en 6,7x sneller is dan dichte wide-baseline matchers (RoMa). UFM is het eerste model dat aantoont dat geünificeerde training gespecialiseerde benaderingen in beide domeinen kan overtreffen. Dit resultaat maakt snelle, algemene correspondentie mogelijk en opent nieuwe richtingen voor multimodale, langeafstands- en real-time correspondentietaken.
English
Dense image correspondence is central to many applications, such as visual odometry, 3D reconstruction, object association, and re-identification. Historically, dense correspondence has been tackled separately for wide-baseline scenarios and optical flow estimation, despite the common goal of matching content between two images. In this paper, we develop a Unified Flow & Matching model (UFM), which is trained on unified data for pixels that are co-visible in both source and target images. UFM uses a simple, generic transformer architecture that directly regresses the (u,v) flow. It is easier to train and more accurate for large flows compared to the typical coarse-to-fine cost volumes in prior work. UFM is 28% more accurate than state-of-the-art flow methods (Unimatch), while also having 62% less error and 6.7x faster than dense wide-baseline matchers (RoMa). UFM is the first to demonstrate that unified training can outperform specialized approaches across both domains. This result enables fast, general-purpose correspondence and opens new directions for multi-modal, long-range, and real-time correspondence tasks.
PDF62June 12, 2025