UFM : Une voie simple vers une correspondance dense unifiée avec le flux
UFM: A Simple Path towards Unified Dense Correspondence with Flow
June 10, 2025
Auteurs: Yuchen Zhang, Nikhil Keetha, Chenwei Lyu, Bhuvan Jhamb, Yutian Chen, Yuheng Qiu, Jay Karhade, Shreyas Jha, Yaoyu Hu, Deva Ramanan, Sebastian Scherer, Wenshan Wang
cs.AI
Résumé
La correspondance dense d'images est essentielle pour de nombreuses applications, telles que l'odométrie visuelle, la reconstruction 3D, l'association d'objets et la ré-identification. Historiquement, la correspondance dense a été abordée séparément pour les scénarios à large base et l'estimation du flux optique, malgré l'objectif commun de faire correspondre le contenu entre deux images. Dans cet article, nous développons un modèle unifié de flux et de correspondance (UFM), qui est entraîné sur des données unifiées pour les pixels co-visibles dans les images source et cible. UFM utilise une architecture de transformateur simple et générique qui régresse directement le flux (u,v). Il est plus facile à entraîner et plus précis pour les grands flux par rapport aux volumes de coûts grossiers à fins typiques des travaux précédents. UFM est 28 % plus précis que les méthodes de flux de pointe (Unimatch), tout en ayant 62 % d'erreur en moins et 6,7 fois plus rapide que les méthodes de correspondance dense à large base (RoMa). UFM est le premier à démontrer qu'un entraînement unifié peut surpasser les approches spécialisées dans les deux domaines. Ce résultat permet une correspondance rapide et polyvalente et ouvre de nouvelles directions pour les tâches de correspondance multi-modale, à longue portée et en temps réel.
English
Dense image correspondence is central to many applications, such as visual
odometry, 3D reconstruction, object association, and re-identification.
Historically, dense correspondence has been tackled separately for
wide-baseline scenarios and optical flow estimation, despite the common goal of
matching content between two images. In this paper, we develop a Unified Flow &
Matching model (UFM), which is trained on unified data for pixels that are
co-visible in both source and target images. UFM uses a simple, generic
transformer architecture that directly regresses the (u,v) flow. It is easier
to train and more accurate for large flows compared to the typical
coarse-to-fine cost volumes in prior work. UFM is 28% more accurate than
state-of-the-art flow methods (Unimatch), while also having 62% less error and
6.7x faster than dense wide-baseline matchers (RoMa). UFM is the first to
demonstrate that unified training can outperform specialized approaches across
both domains. This result enables fast, general-purpose correspondence and
opens new directions for multi-modal, long-range, and real-time correspondence
tasks.