UFM: Um Caminho Simples para a Correspondência Densa Unificada com Fluxo
UFM: A Simple Path towards Unified Dense Correspondence with Flow
June 10, 2025
Autores: Yuchen Zhang, Nikhil Keetha, Chenwei Lyu, Bhuvan Jhamb, Yutian Chen, Yuheng Qiu, Jay Karhade, Shreyas Jha, Yaoyu Hu, Deva Ramanan, Sebastian Scherer, Wenshan Wang
cs.AI
Resumo
A correspondência densa de imagens é central para muitas aplicações, como odometria visual, reconstrução 3D, associação de objetos e reidentificação. Historicamente, a correspondência densa tem sido abordada separadamente para cenários de linha de base ampla e estimativa de fluxo óptico, apesar do objetivo comum de corresponder o conteúdo entre duas imagens. Neste artigo, desenvolvemos um modelo Unificado de Fluxo & Correspondência (UFM), que é treinado com dados unificados para pixels que são co-visíveis tanto na imagem de origem quanto na imagem de destino. O UFM utiliza uma arquitetura de transformer simples e genérica que regride diretamente o fluxo (u,v). Ele é mais fácil de treinar e mais preciso para grandes fluxos em comparação com os volumes de custo de granularidade grossa para fina usados em trabalhos anteriores. O UFM é 28% mais preciso do que os métodos de fluxo estado da arte (Unimatch), enquanto também apresenta 62% menos erro e é 6,7 vezes mais rápido do que os correspondentes densos de linha de base ampla (RoMa). O UFM é o primeiro a demonstrar que o treinamento unificado pode superar abordagens especializadas em ambos os domínios. Esse resultado possibilita uma correspondência rápida e de propósito geral e abre novas direções para tarefas de correspondência multimodal, de longo alcance e em tempo real.
English
Dense image correspondence is central to many applications, such as visual
odometry, 3D reconstruction, object association, and re-identification.
Historically, dense correspondence has been tackled separately for
wide-baseline scenarios and optical flow estimation, despite the common goal of
matching content between two images. In this paper, we develop a Unified Flow &
Matching model (UFM), which is trained on unified data for pixels that are
co-visible in both source and target images. UFM uses a simple, generic
transformer architecture that directly regresses the (u,v) flow. It is easier
to train and more accurate for large flows compared to the typical
coarse-to-fine cost volumes in prior work. UFM is 28% more accurate than
state-of-the-art flow methods (Unimatch), while also having 62% less error and
6.7x faster than dense wide-baseline matchers (RoMa). UFM is the first to
demonstrate that unified training can outperform specialized approaches across
both domains. This result enables fast, general-purpose correspondence and
opens new directions for multi-modal, long-range, and real-time correspondence
tasks.