UFM: Un camino sencillo hacia la correspondencia densa unificada con flujo
UFM: A Simple Path towards Unified Dense Correspondence with Flow
June 10, 2025
Autores: Yuchen Zhang, Nikhil Keetha, Chenwei Lyu, Bhuvan Jhamb, Yutian Chen, Yuheng Qiu, Jay Karhade, Shreyas Jha, Yaoyu Hu, Deva Ramanan, Sebastian Scherer, Wenshan Wang
cs.AI
Resumen
La correspondencia densa de imágenes es fundamental para muchas aplicaciones, como la odometría visual, la reconstrucción 3D, la asociación de objetos y la reidentificación. Históricamente, la correspondencia densa se ha abordado por separado para escenarios de línea base amplia y la estimación de flujo óptico, a pesar del objetivo común de emparejar contenido entre dos imágenes. En este artículo, desarrollamos un modelo unificado de flujo y correspondencia (UFM, por sus siglas en inglés), que se entrena con datos unificados para píxeles que son co-visibles tanto en la imagen fuente como en la imagen objetivo. UFM utiliza una arquitectura de transformador simple y genérica que regresa directamente el flujo (u, v). Es más fácil de entrenar y más preciso para flujos grandes en comparación con los volúmenes de costos de grano grueso a fino utilizados en trabajos previos. UFM es un 28% más preciso que los métodos de flujo más avanzados (Unimatch), mientras que también tiene un 62% menos de error y es 6.7 veces más rápido que los emparejadores de línea base amplia densa (RoMa). UFM es el primero en demostrar que el entrenamiento unificado puede superar a enfoques especializados en ambos dominios. Este resultado permite una correspondencia rápida y de propósito general, y abre nuevas direcciones para tareas de correspondencia multimodal, de largo alcance y en tiempo real.
English
Dense image correspondence is central to many applications, such as visual
odometry, 3D reconstruction, object association, and re-identification.
Historically, dense correspondence has been tackled separately for
wide-baseline scenarios and optical flow estimation, despite the common goal of
matching content between two images. In this paper, we develop a Unified Flow &
Matching model (UFM), which is trained on unified data for pixels that are
co-visible in both source and target images. UFM uses a simple, generic
transformer architecture that directly regresses the (u,v) flow. It is easier
to train and more accurate for large flows compared to the typical
coarse-to-fine cost volumes in prior work. UFM is 28% more accurate than
state-of-the-art flow methods (Unimatch), while also having 62% less error and
6.7x faster than dense wide-baseline matchers (RoMa). UFM is the first to
demonstrate that unified training can outperform specialized approaches across
both domains. This result enables fast, general-purpose correspondence and
opens new directions for multi-modal, long-range, and real-time correspondence
tasks.