UFM: Un Percorso Semplice verso una Corrispondenza Densa Unificata con il Flusso
UFM: A Simple Path towards Unified Dense Correspondence with Flow
June 10, 2025
Autori: Yuchen Zhang, Nikhil Keetha, Chenwei Lyu, Bhuvan Jhamb, Yutian Chen, Yuheng Qiu, Jay Karhade, Shreyas Jha, Yaoyu Hu, Deva Ramanan, Sebastian Scherer, Wenshan Wang
cs.AI
Abstract
La corrispondenza densa di immagini è fondamentale per molte applicazioni, come l'odometria visiva, la ricostruzione 3D, l'associazione di oggetti e il re-identificamento. Storicamente, la corrispondenza densa è stata affrontata separatamente per scenari a ampia base e per la stima del flusso ottico, nonostante l'obiettivo comune di abbinare il contenuto tra due immagini. In questo articolo, sviluppiamo un modello Unificato di Flusso & Corrispondenza (UFM), che viene addestrato su dati unificati per i pixel co-visibili sia nell'immagine sorgente che in quella target. UFM utilizza una semplice e generica architettura transformer che regredisce direttamente il flusso (u,v). È più facile da addestrare e più accurato per flussi ampi rispetto ai tipici volumi di costo da grossolano a fine nei lavori precedenti. UFM è il 28% più accurato rispetto ai metodi di flusso all'avanguardia (Unimatch), mentre ha anche il 62% in meno di errore ed è 6,7 volte più veloce rispetto ai matcher densi a ampia base (RoMa). UFM è il primo a dimostrare che l'addestramento unificato può superare approcci specializzati in entrambi i domini. Questo risultato consente una corrispondenza veloce e generica e apre nuove direzioni per compiti di corrispondenza multi-modale, a lungo raggio e in tempo reale.
English
Dense image correspondence is central to many applications, such as visual
odometry, 3D reconstruction, object association, and re-identification.
Historically, dense correspondence has been tackled separately for
wide-baseline scenarios and optical flow estimation, despite the common goal of
matching content between two images. In this paper, we develop a Unified Flow &
Matching model (UFM), which is trained on unified data for pixels that are
co-visible in both source and target images. UFM uses a simple, generic
transformer architecture that directly regresses the (u,v) flow. It is easier
to train and more accurate for large flows compared to the typical
coarse-to-fine cost volumes in prior work. UFM is 28% more accurate than
state-of-the-art flow methods (Unimatch), while also having 62% less error and
6.7x faster than dense wide-baseline matchers (RoMa). UFM is the first to
demonstrate that unified training can outperform specialized approaches across
both domains. This result enables fast, general-purpose correspondence and
opens new directions for multi-modal, long-range, and real-time correspondence
tasks.