PoseDiffusion: Lösung der Pose-Schätzung durch diffusionsgestützte Bündelausgleichung

papers.abstract

Die Schätzung der Kameraposition ist ein langjähriges Problem der Computer Vision, das bis heute häufig auf klassischen Methoden wie dem Abgleich handgefertigter Schlüsselpunkte, RANSAC und Bündelausgleich basiert. In diesem Artikel schlagen wir vor, das Structure-from-Motion (SfM)-Problem innerhalb eines probabilistischen Diffusionsframeworks zu formulieren, wobei die bedingte Verteilung der Kamerapositionen bei gegebenen Eingabebildern modelliert wird. Diese neue Sichtweise auf ein altes Problem bietet mehrere Vorteile. (i) Die Natur des Diffusionsframeworks spiegelt den iterativen Prozess des Bündelausgleichs wider. (ii) Die Formulierung ermöglicht eine nahtlose Integration geometrischer Beschränkungen aus der Epipolargeometrie. (iii) Sie überzeugt in typischerweise schwierigen Szenarien wie spärlichen Ansichten mit großen Baselines. (iv) Die Methode kann intrinsische und extrinsische Parameter für eine beliebige Anzahl von Bildern vorhersagen. Wir zeigen, dass unsere Methode PoseDiffusion die klassischen SfM-Pipelines und die gelernten Ansätze auf zwei realen Datensätzen deutlich übertrifft. Schließlich wird beobachtet, dass unsere Methode ohne weiteres Training über Datensätze hinweg generalisieren kann. Projektseite: https://posediffusion.github.io/

English

Camera pose estimation is a long-standing computer vision problem that to date often relies on classical methods, such as handcrafted keypoint matching, RANSAC and bundle adjustment. In this paper, we propose to formulate the Structure from Motion (SfM) problem inside a probabilistic diffusion framework, modelling the conditional distribution of camera poses given input images. This novel view of an old problem has several advantages. (i) The nature of the diffusion framework mirrors the iterative procedure of bundle adjustment. (ii) The formulation allows a seamless integration of geometric constraints from epipolar geometry. (iii) It excels in typically difficult scenarios such as sparse views with wide baselines. (iv) The method can predict intrinsics and extrinsics for an arbitrary amount of images. We demonstrate that our method PoseDiffusion significantly improves over the classic SfM pipelines and the learned approaches on two real-world datasets. Finally, it is observed that our method can generalize across datasets without further training. Project page: https://posediffusion.github.io/

PoseDiffusion: Lösung der Pose-Schätzung durch diffusionsgestützte Bündelausgleichung

PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle Adjustment

papers.abstract

Support