PoseDiffusion: Resolução de Estimativa de Pose via Ajuste de Feixe Assistido por Difusão

Resumo

A estimativa da pose da câmera é um problema clássico de visão computacional que, até hoje, frequentemente depende de métodos tradicionais, como correspondência de pontos-chave manuais, RANSAC e ajuste de feixe (bundle adjustment). Neste artigo, propomos formular o problema de Estrutura a partir do Movimento (Structure from Motion - SfM) dentro de um framework probabilístico de difusão, modelando a distribuição condicional das poses da câmera dadas as imagens de entrada. Essa nova perspectiva sobre um problema antigo traz várias vantagens. (i) A natureza do framework de difusão reflete o procedimento iterativo do ajuste de feixe. (ii) A formulação permite uma integração contínua de restrições geométricas da geometria epipolar. (iii) O método se destaca em cenários tipicamente desafiadores, como visões esparsas com grandes baselines. (iv) Ele pode prever parâmetros intrínsecos e extrínsecos para uma quantidade arbitrária de imagens. Demonstramos que nosso método, PoseDiffusion, supera significativamente os pipelines clássicos de SfM e as abordagens baseadas em aprendizado em dois conjuntos de dados do mundo real. Por fim, observamos que o método é capaz de generalizar entre conjuntos de dados sem necessidade de treinamento adicional. Página do projeto: https://posediffusion.github.io/

English

Camera pose estimation is a long-standing computer vision problem that to date often relies on classical methods, such as handcrafted keypoint matching, RANSAC and bundle adjustment. In this paper, we propose to formulate the Structure from Motion (SfM) problem inside a probabilistic diffusion framework, modelling the conditional distribution of camera poses given input images. This novel view of an old problem has several advantages. (i) The nature of the diffusion framework mirrors the iterative procedure of bundle adjustment. (ii) The formulation allows a seamless integration of geometric constraints from epipolar geometry. (iii) It excels in typically difficult scenarios such as sparse views with wide baselines. (iv) The method can predict intrinsics and extrinsics for an arbitrary amount of images. We demonstrate that our method PoseDiffusion significantly improves over the classic SfM pipelines and the learned approaches on two real-world datasets. Finally, it is observed that our method can generalize across datasets without further training. Project page: https://posediffusion.github.io/

PoseDiffusion: Resolução de Estimativa de Pose via Ajuste de Feixe Assistido por Difusão

PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle Adjustment

Resumo

Support