UFM: 플로우를 통한 통합된 밀집 대응을 위한 간단한 접근법
UFM: A Simple Path towards Unified Dense Correspondence with Flow
June 10, 2025
저자: Yuchen Zhang, Nikhil Keetha, Chenwei Lyu, Bhuvan Jhamb, Yutian Chen, Yuheng Qiu, Jay Karhade, Shreyas Jha, Yaoyu Hu, Deva Ramanan, Sebastian Scherer, Wenshan Wang
cs.AI
초록
고밀도 이미지 대응은 시각적 주행 거리 측정(visual odometry), 3D 재구성, 객체 연관, 재식별 등 다양한 응용 분야에서 핵심적인 역할을 한다. 역사적으로 고밀도 대응은 광범위 기선(wide-baseline) 시나리오와 광학 흐름(optical flow) 추정을 위해 별도로 다루어져 왔으며, 이는 두 이미지 간의 내용을 매칭한다는 공통 목표에도 불구하고 그러했다. 본 논문에서는 소스 이미지와 타겟 이미지 모두에서 공동으로 가시화되는 픽셀에 대해 통합된 데이터로 학습된 통합 흐름 및 매칭 모델(Unified Flow & Matching model, UFM)을 개발한다. UFM은 (u, v) 흐름을 직접 회귀하는 간단하고 일반적인 트랜스포머 아키텍처를 사용한다. 이는 기존 연구에서 사용된 일반적인 coarse-to-fine 비용 볼륨(cost volume) 방식에 비해 학습이 더 쉬우며, 큰 흐름에 대해 더 정확하다. UFM은 최신 흐름 기법(Unimatch)보다 28% 더 정확하며, 고밀도 광범위 기선 매처(RoMa)에 비해 62% 더 적은 오류와 6.7배 더 빠른 성능을 보인다. UFM은 통합 학습이 두 영역 모두에서 특수화된 접근법을 능가할 수 있음을 처음으로 입증한 모델이다. 이 결과는 빠르고 일반적인 목적의 대응을 가능하게 하며, 다중 모달, 장거리, 실시간 대응 작업을 위한 새로운 방향을 제시한다.
English
Dense image correspondence is central to many applications, such as visual
odometry, 3D reconstruction, object association, and re-identification.
Historically, dense correspondence has been tackled separately for
wide-baseline scenarios and optical flow estimation, despite the common goal of
matching content between two images. In this paper, we develop a Unified Flow &
Matching model (UFM), which is trained on unified data for pixels that are
co-visible in both source and target images. UFM uses a simple, generic
transformer architecture that directly regresses the (u,v) flow. It is easier
to train and more accurate for large flows compared to the typical
coarse-to-fine cost volumes in prior work. UFM is 28% more accurate than
state-of-the-art flow methods (Unimatch), while also having 62% less error and
6.7x faster than dense wide-baseline matchers (RoMa). UFM is the first to
demonstrate that unified training can outperform specialized approaches across
both domains. This result enables fast, general-purpose correspondence and
opens new directions for multi-modal, long-range, and real-time correspondence
tasks.