ChatPaper.aiChatPaper

UFM: Простой путь к унифицированному плотному соответствию с использованием потока

UFM: A Simple Path towards Unified Dense Correspondence with Flow

June 10, 2025
Авторы: Yuchen Zhang, Nikhil Keetha, Chenwei Lyu, Bhuvan Jhamb, Yutian Chen, Yuheng Qiu, Jay Karhade, Shreyas Jha, Yaoyu Hu, Deva Ramanan, Sebastian Scherer, Wenshan Wang
cs.AI

Аннотация

Плотное соответствие изображений является ключевым для многих приложений, таких как визуальная одометрия, 3D-реконструкция, ассоциация объектов и повторная идентификация. Исторически задача плотного соответствия решалась отдельно для сценариев с широким базисом и для оценки оптического потока, несмотря на общую цель сопоставления содержимого между двумя изображениями. В данной работе мы разрабатываем унифицированную модель потока и соответствия (Unified Flow & Matching, UFM), которая обучается на унифицированных данных для пикселей, видимых как в исходном, так и в целевом изображениях. UFM использует простую, универсальную архитектуру трансформера, которая непосредственно регрессирует поток (u, v). Она проще в обучении и более точна для больших потоков по сравнению с типичными многоуровневыми объемными затратами в предыдущих работах. UFM на 28% точнее современных методов оценки потока (Unimatch), а также имеет на 62% меньше ошибок и работает в 6,7 раза быстрее, чем плотные методы соответствия с широким базисом (RoMa). UFM впервые демонстрирует, что унифицированное обучение может превзойти специализированные подходы в обеих областях. Этот результат позволяет реализовать быстрое, универсальное соответствие и открывает новые направления для многомодальных, дальнодействующих и задач соответствия в реальном времени.
English
Dense image correspondence is central to many applications, such as visual odometry, 3D reconstruction, object association, and re-identification. Historically, dense correspondence has been tackled separately for wide-baseline scenarios and optical flow estimation, despite the common goal of matching content between two images. In this paper, we develop a Unified Flow & Matching model (UFM), which is trained on unified data for pixels that are co-visible in both source and target images. UFM uses a simple, generic transformer architecture that directly regresses the (u,v) flow. It is easier to train and more accurate for large flows compared to the typical coarse-to-fine cost volumes in prior work. UFM is 28% more accurate than state-of-the-art flow methods (Unimatch), while also having 62% less error and 6.7x faster than dense wide-baseline matchers (RoMa). UFM is the first to demonstrate that unified training can outperform specialized approaches across both domains. This result enables fast, general-purpose correspondence and opens new directions for multi-modal, long-range, and real-time correspondence tasks.
PDF52June 12, 2025