PoseDiffusion: Oplossen van Pose-schatting via Diffusie-ondersteunde Bundeloptimalisatie

Samenvatting

Camera pose-estimatie is een lang bestaand computer vision-probleem dat tot op heden vaak vertrouwt op klassieke methoden, zoals handmatige keypoint-matching, RANSAC en bundle adjustment. In dit artikel stellen we voor om het Structure from Motion (SfM)-probleem te formuleren binnen een probabilistisch diffusiekader, waarbij de conditionele verdeling van cameraposities gegeven invoerbeelden wordt gemodelleerd. Deze nieuwe kijk op een oud probleem biedt verschillende voordelen. (i) De aard van het diffusiekader weerspiegelt het iteratieve proces van bundle adjustment. (ii) De formulering maakt een naadloze integratie van geometrische beperkingen uit epipolaire geometrie mogelijk. (iii) Het presteert uitstekend in typisch lastige scenario's zoals sparse views met grote baselines. (iv) De methode kan intrinsieke en extrinsieke parameters voorspellen voor een willekeurig aantal beelden. We tonen aan dat onze methode PoseDiffusion aanzienlijk verbetert ten opzichte van de klassieke SfM-pipelines en de geleerde benaderingen op twee real-world datasets. Tot slot wordt geobserveerd dat onze methode kan generaliseren over datasets zonder verdere training. Projectpagina: https://posediffusion.github.io/

English

Camera pose estimation is a long-standing computer vision problem that to date often relies on classical methods, such as handcrafted keypoint matching, RANSAC and bundle adjustment. In this paper, we propose to formulate the Structure from Motion (SfM) problem inside a probabilistic diffusion framework, modelling the conditional distribution of camera poses given input images. This novel view of an old problem has several advantages. (i) The nature of the diffusion framework mirrors the iterative procedure of bundle adjustment. (ii) The formulation allows a seamless integration of geometric constraints from epipolar geometry. (iii) It excels in typically difficult scenarios such as sparse views with wide baselines. (iv) The method can predict intrinsics and extrinsics for an arbitrary amount of images. We demonstrate that our method PoseDiffusion significantly improves over the classic SfM pipelines and the learned approaches on two real-world datasets. Finally, it is observed that our method can generalize across datasets without further training. Project page: https://posediffusion.github.io/

PoseDiffusion: Oplossen van Pose-schatting via Diffusie-ondersteunde Bundeloptimalisatie

PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle Adjustment

Samenvatting

Support