PoseDiffusion : Résolution de l'estimation de pose via un ajustement de faisceau assisté par diffusion
PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle Adjustment
June 27, 2023
Auteurs: Jianyuan Wang, Christian Rupprecht, David Novotny
cs.AI
Résumé
L'estimation de la pose de la caméra est un problème de vision par ordinateur de longue date qui repose souvent encore aujourd'hui sur des méthodes classiques, telles que l'appariement manuel de points clés, RANSAC et l'ajustement de faisceaux. Dans cet article, nous proposons de formuler le problème de Structure à partir du Mouvement (SfM) dans un cadre probabiliste de diffusion, en modélisant la distribution conditionnelle des poses de caméra étant donné les images d'entrée. Cette nouvelle perspective sur un ancien problème présente plusieurs avantages. (i) La nature du cadre de diffusion reflète la procédure itérative de l'ajustement de faisceaux. (ii) La formulation permet une intégration fluide des contraintes géométriques issues de la géométrie épipolaire. (iii) Elle excelle dans des scénarios typiquement difficiles, tels que des vues éparses avec de larges bases. (iv) La méthode peut prédire les paramètres intrinsèques et extrinsèques pour un nombre arbitraire d'images. Nous démontrons que notre méthode PoseDiffusion améliore significativement les pipelines SfM classiques et les approches apprises sur deux ensembles de données du monde réel. Enfin, il est observé que notre méthode peut généraliser à travers différents ensembles de données sans entraînement supplémentaire. Page du projet : https://posediffusion.github.io/
English
Camera pose estimation is a long-standing computer vision problem that to
date often relies on classical methods, such as handcrafted keypoint matching,
RANSAC and bundle adjustment. In this paper, we propose to formulate the
Structure from Motion (SfM) problem inside a probabilistic diffusion framework,
modelling the conditional distribution of camera poses given input images. This
novel view of an old problem has several advantages. (i) The nature of the
diffusion framework mirrors the iterative procedure of bundle adjustment. (ii)
The formulation allows a seamless integration of geometric constraints from
epipolar geometry. (iii) It excels in typically difficult scenarios such as
sparse views with wide baselines. (iv) The method can predict intrinsics and
extrinsics for an arbitrary amount of images. We demonstrate that our method
PoseDiffusion significantly improves over the classic SfM pipelines and the
learned approaches on two real-world datasets. Finally, it is observed that our
method can generalize across datasets without further training. Project page:
https://posediffusion.github.io/