PoseDiffusion: Risoluzione della stima della posa tramite aggiustamento del fascio assistito da diffusione
PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle Adjustment
June 27, 2023
Autori: Jianyuan Wang, Christian Rupprecht, David Novotny
cs.AI
Abstract
La stima della posa della fotocamera è un problema di lunga data nel campo della visione artificiale che, fino ad oggi, si basa spesso su metodi classici, come il matching manuale di punti chiave, RANSAC e il bundle adjustment. In questo articolo, proponiamo di formulare il problema di Structure from Motion (SfM) all'interno di un framework probabilistico di diffusione, modellando la distribuzione condizionale delle pose della fotocamera date le immagini di input. Questa nuova prospettiva su un problema consolidato presenta diversi vantaggi. (i) La natura del framework di diffusione riflette la procedura iterativa del bundle adjustment. (ii) La formulazione consente un'integrazione fluida dei vincoli geometrici derivati dalla geometria epipolare. (iii) Eccelle in scenari tipicamente difficili, come viste sparse con basi ampie. (iv) Il metodo può prevedere i parametri intrinseci ed estrinseci per un numero arbitrario di immagini. Dimostriamo che il nostro metodo, PoseDiffusion, migliora significativamente rispetto alle pipeline classiche di SfM e agli approcci basati su apprendimento su due dataset del mondo reale. Infine, si osserva che il nostro metodo può generalizzare tra dataset senza ulteriore addestramento. Pagina del progetto: https://posediffusion.github.io/
English
Camera pose estimation is a long-standing computer vision problem that to
date often relies on classical methods, such as handcrafted keypoint matching,
RANSAC and bundle adjustment. In this paper, we propose to formulate the
Structure from Motion (SfM) problem inside a probabilistic diffusion framework,
modelling the conditional distribution of camera poses given input images. This
novel view of an old problem has several advantages. (i) The nature of the
diffusion framework mirrors the iterative procedure of bundle adjustment. (ii)
The formulation allows a seamless integration of geometric constraints from
epipolar geometry. (iii) It excels in typically difficult scenarios such as
sparse views with wide baselines. (iv) The method can predict intrinsics and
extrinsics for an arbitrary amount of images. We demonstrate that our method
PoseDiffusion significantly improves over the classic SfM pipelines and the
learned approaches on two real-world datasets. Finally, it is observed that our
method can generalize across datasets without further training. Project page:
https://posediffusion.github.io/