LU-NeRF: Szenen- und Pose-Schätzung durch Synchronisation lokaler unposierter NeRFs
LU-NeRF: Scene and Pose Estimation by Synchronizing Local Unposed NeRFs
June 8, 2023
Autoren: Zezhou Cheng, Carlos Esteves, Varun Jampani, Abhishek Kar, Subhransu Maji, Ameesh Makadia
cs.AI
Zusammenfassung
Ein entscheidendes Hindernis, das den breiten Einsatz von NeRF-Modellen in der Praxis verhindert, ist ihre Abhängigkeit von präzisen Kameraposen. Daher wächst das Interesse daran, NeRF-Modelle so zu erweitern, dass sie Kameraposen und Szenendarstellung gemeinsam optimieren, was eine Alternative zu Standard-SfM-Pipelines bietet, die bekannte Schwachstellen aufweisen. Bestehende Ansätze für NeRF ohne vorgegebene Posen operieren unter eingeschränkten Annahmen, wie einer vorherigen Posenerteilung oder einer groben Pose-Initialisierung, was sie in einem allgemeinen Kontext weniger effektiv macht. In dieser Arbeit schlagen wir einen neuartigen Ansatz, LU-NeRF, vor, der Kameraposen und neuronale Strahlungsfelder gemeinsam schätzt, wobei die Annahmen zur Pose-Konfiguration gelockert sind. Unser Ansatz arbeitet in einem lokal-zu-globalen Verfahren, bei dem wir zunächst über lokale Teilmengen der Daten, sogenannte Mini-Szenen, optimieren. LU-NeRF schätzt lokale Posen und Geometrie für diese anspruchsvolle Few-Shot-Aufgabe. Die Posen der Mini-Szenen werden durch einen robusten Pose-Synchronisierungsschritt in einen globalen Referenzrahmen überführt, wo eine abschließende globale Optimierung von Pose und Szene durchgeführt werden kann. Wir zeigen, dass unsere LU-NeRF-Pipeline frühere Versuche von NeRF ohne vorgegebene Posen übertrifft, ohne restriktive Annahmen zur Pose zu machen. Dies ermöglicht es uns, im allgemeinen SE(3)-Pose-Setting zu operieren, im Gegensatz zu den Baselines. Unsere Ergebnisse deuten auch darauf hin, dass unser Modell komplementär zu feature-basierten SfM-Pipelines sein kann, da es sich bei texturarmen und niedrigauflösenden Bildern günstig mit COLMAP vergleichen lässt.
English
A critical obstacle preventing NeRF models from being deployed broadly in the
wild is their reliance on accurate camera poses. Consequently, there is growing
interest in extending NeRF models to jointly optimize camera poses and scene
representation, which offers an alternative to off-the-shelf SfM pipelines
which have well-understood failure modes. Existing approaches for unposed NeRF
operate under limited assumptions, such as a prior pose distribution or coarse
pose initialization, making them less effective in a general setting. In this
work, we propose a novel approach, LU-NeRF, that jointly estimates camera poses
and neural radiance fields with relaxed assumptions on pose configuration. Our
approach operates in a local-to-global manner, where we first optimize over
local subsets of the data, dubbed mini-scenes. LU-NeRF estimates local pose and
geometry for this challenging few-shot task. The mini-scene poses are brought
into a global reference frame through a robust pose synchronization step, where
a final global optimization of pose and scene can be performed. We show our
LU-NeRF pipeline outperforms prior attempts at unposed NeRF without making
restrictive assumptions on the pose prior. This allows us to operate in the
general SE(3) pose setting, unlike the baselines. Our results also indicate our
model can be complementary to feature-based SfM pipelines as it compares
favorably to COLMAP on low-texture and low-resolution images.