ChatPaper.aiChatPaper

PoseDiffusion: Решение задачи оценки позы с помощью диффузионного пакетного уточнения

PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle Adjustment

June 27, 2023
Авторы: Jianyuan Wang, Christian Rupprecht, David Novotny
cs.AI

Аннотация

Оценка положения камеры является давней проблемой компьютерного зрения, которая до сих пор часто опирается на классические методы, такие как ручное сопоставление ключевых точек, RANSAC и бандл-адаптацию. В данной статье мы предлагаем сформулировать задачу восстановления структуры по движению (Structure from Motion, SfM) в рамках вероятностного диффузионного подхода, моделируя условное распределение положений камеры на основе входных изображений. Этот новый взгляд на старую проблему имеет несколько преимуществ. (i) Природа диффузионного подхода отражает итеративный процесс бандл-адаптации. (ii) Формулировка позволяет легко интегрировать геометрические ограничения из эпиполярной геометрии. (iii) Метод превосходит в типично сложных сценариях, таких как разреженные виды с широкими базовыми линиями. (iv) Метод может предсказывать внутренние и внешние параметры для произвольного количества изображений. Мы демонстрируем, что наш метод PoseDiffusion значительно улучшает результаты по сравнению с классическими SfM-пайплайнами и обученными подходами на двух реальных наборах данных. Наконец, наблюдается, что наш метод может обобщать данные между наборами без дополнительного обучения. Страница проекта: https://posediffusion.github.io/
English
Camera pose estimation is a long-standing computer vision problem that to date often relies on classical methods, such as handcrafted keypoint matching, RANSAC and bundle adjustment. In this paper, we propose to formulate the Structure from Motion (SfM) problem inside a probabilistic diffusion framework, modelling the conditional distribution of camera poses given input images. This novel view of an old problem has several advantages. (i) The nature of the diffusion framework mirrors the iterative procedure of bundle adjustment. (ii) The formulation allows a seamless integration of geometric constraints from epipolar geometry. (iii) It excels in typically difficult scenarios such as sparse views with wide baselines. (iv) The method can predict intrinsics and extrinsics for an arbitrary amount of images. We demonstrate that our method PoseDiffusion significantly improves over the classic SfM pipelines and the learned approaches on two real-world datasets. Finally, it is observed that our method can generalize across datasets without further training. Project page: https://posediffusion.github.io/
PDF80December 15, 2024