ChatPaper.aiChatPaper

UFM: Un camino sencillo hacia la correspondencia densa unificada con flujo

UFM: A Simple Path towards Unified Dense Correspondence with Flow

June 10, 2025
Autores: Yuchen Zhang, Nikhil Keetha, Chenwei Lyu, Bhuvan Jhamb, Yutian Chen, Yuheng Qiu, Jay Karhade, Shreyas Jha, Yaoyu Hu, Deva Ramanan, Sebastian Scherer, Wenshan Wang
cs.AI

Resumen

La correspondencia densa de imágenes es fundamental para muchas aplicaciones, como la odometría visual, la reconstrucción 3D, la asociación de objetos y la reidentificación. Históricamente, la correspondencia densa se ha abordado por separado para escenarios de línea base amplia y la estimación de flujo óptico, a pesar del objetivo común de emparejar contenido entre dos imágenes. En este artículo, desarrollamos un modelo unificado de flujo y correspondencia (UFM, por sus siglas en inglés), que se entrena con datos unificados para píxeles que son co-visibles tanto en la imagen fuente como en la imagen objetivo. UFM utiliza una arquitectura de transformador simple y genérica que regresa directamente el flujo (u, v). Es más fácil de entrenar y más preciso para flujos grandes en comparación con los volúmenes de costos de grano grueso a fino utilizados en trabajos previos. UFM es un 28% más preciso que los métodos de flujo más avanzados (Unimatch), mientras que también tiene un 62% menos de error y es 6.7 veces más rápido que los emparejadores de línea base amplia densa (RoMa). UFM es el primero en demostrar que el entrenamiento unificado puede superar a enfoques especializados en ambos dominios. Este resultado permite una correspondencia rápida y de propósito general, y abre nuevas direcciones para tareas de correspondencia multimodal, de largo alcance y en tiempo real.
English
Dense image correspondence is central to many applications, such as visual odometry, 3D reconstruction, object association, and re-identification. Historically, dense correspondence has been tackled separately for wide-baseline scenarios and optical flow estimation, despite the common goal of matching content between two images. In this paper, we develop a Unified Flow & Matching model (UFM), which is trained on unified data for pixels that are co-visible in both source and target images. UFM uses a simple, generic transformer architecture that directly regresses the (u,v) flow. It is easier to train and more accurate for large flows compared to the typical coarse-to-fine cost volumes in prior work. UFM is 28% more accurate than state-of-the-art flow methods (Unimatch), while also having 62% less error and 6.7x faster than dense wide-baseline matchers (RoMa). UFM is the first to demonstrate that unified training can outperform specialized approaches across both domains. This result enables fast, general-purpose correspondence and opens new directions for multi-modal, long-range, and real-time correspondence tasks.
PDF52June 12, 2025