PoseDiffusion: Resolução de Estimativa de Pose via Ajuste de Feixe Assistido por Difusão
PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle Adjustment
June 27, 2023
Autores: Jianyuan Wang, Christian Rupprecht, David Novotny
cs.AI
Resumo
A estimativa da pose da câmera é um problema clássico de visão computacional que, até hoje, frequentemente depende de métodos tradicionais, como correspondência de pontos-chave manuais, RANSAC e ajuste de feixe (bundle adjustment). Neste artigo, propomos formular o problema de Estrutura a partir do Movimento (Structure from Motion - SfM) dentro de um framework probabilístico de difusão, modelando a distribuição condicional das poses da câmera dadas as imagens de entrada. Essa nova perspectiva sobre um problema antigo traz várias vantagens. (i) A natureza do framework de difusão reflete o procedimento iterativo do ajuste de feixe. (ii) A formulação permite uma integração contínua de restrições geométricas da geometria epipolar. (iii) O método se destaca em cenários tipicamente desafiadores, como visões esparsas com grandes baselines. (iv) Ele pode prever parâmetros intrínsecos e extrínsecos para uma quantidade arbitrária de imagens. Demonstramos que nosso método, PoseDiffusion, supera significativamente os pipelines clássicos de SfM e as abordagens baseadas em aprendizado em dois conjuntos de dados do mundo real. Por fim, observamos que o método é capaz de generalizar entre conjuntos de dados sem necessidade de treinamento adicional. Página do projeto: https://posediffusion.github.io/
English
Camera pose estimation is a long-standing computer vision problem that to
date often relies on classical methods, such as handcrafted keypoint matching,
RANSAC and bundle adjustment. In this paper, we propose to formulate the
Structure from Motion (SfM) problem inside a probabilistic diffusion framework,
modelling the conditional distribution of camera poses given input images. This
novel view of an old problem has several advantages. (i) The nature of the
diffusion framework mirrors the iterative procedure of bundle adjustment. (ii)
The formulation allows a seamless integration of geometric constraints from
epipolar geometry. (iii) It excels in typically difficult scenarios such as
sparse views with wide baselines. (iv) The method can predict intrinsics and
extrinsics for an arbitrary amount of images. We demonstrate that our method
PoseDiffusion significantly improves over the classic SfM pipelines and the
learned approaches on two real-world datasets. Finally, it is observed that our
method can generalize across datasets without further training. Project page:
https://posediffusion.github.io/