LU-NeRF : Estimation de scène et de pose par synchronisation de NeRFs locaux non posés
LU-NeRF: Scene and Pose Estimation by Synchronizing Local Unposed NeRFs
June 8, 2023
Auteurs: Zezhou Cheng, Carlos Esteves, Varun Jampani, Abhishek Kar, Subhransu Maji, Ameesh Makadia
cs.AI
Résumé
Un obstacle majeur empêchant le déploiement généralisé des modèles NeRF dans des environnements réels est leur dépendance à des poses de caméra précises. Par conséquent, il y a un intérêt croissant pour étendre les modèles NeRF afin d'optimiser conjointement les poses de caméra et la représentation de la scène, offrant ainsi une alternative aux pipelines SfM prêts à l'emploi qui présentent des modes de défaillance bien connus. Les approches existantes pour les NeRF sans pose opèrent sous des hypothèses limitées, telles qu'une distribution de pose a priori ou une initialisation grossière de la pose, ce qui les rend moins efficaces dans un cadre général. Dans ce travail, nous proposons une nouvelle approche, LU-NeRF, qui estime conjointement les poses de caméra et les champs de radiance neuronaux avec des hypothèses assouplies sur la configuration des poses. Notre approche fonctionne de manière locale à globale, où nous optimisons d'abord des sous-ensembles locaux de données, appelés mini-scènes. LU-NeRF estime la pose et la géométrie locales pour cette tâche difficile en faible échantillonnage. Les poses des mini-scènes sont intégrées dans un référentiel global grâce à une étape de synchronisation robuste des poses, permettant une optimisation finale globale de la pose et de la scène. Nous montrons que notre pipeline LU-NeRF surpasse les tentatives précédentes de NeRF sans pose sans faire d'hypothèses restrictives sur la pose a priori. Cela nous permet d'opérer dans le cadre général des poses SE(3), contrairement aux approches de référence. Nos résultats indiquent également que notre modèle peut être complémentaire aux pipelines SfM basés sur des caractéristiques, car il se compare favorablement à COLMAP sur des images à faible texture et à faible résolution.
English
A critical obstacle preventing NeRF models from being deployed broadly in the
wild is their reliance on accurate camera poses. Consequently, there is growing
interest in extending NeRF models to jointly optimize camera poses and scene
representation, which offers an alternative to off-the-shelf SfM pipelines
which have well-understood failure modes. Existing approaches for unposed NeRF
operate under limited assumptions, such as a prior pose distribution or coarse
pose initialization, making them less effective in a general setting. In this
work, we propose a novel approach, LU-NeRF, that jointly estimates camera poses
and neural radiance fields with relaxed assumptions on pose configuration. Our
approach operates in a local-to-global manner, where we first optimize over
local subsets of the data, dubbed mini-scenes. LU-NeRF estimates local pose and
geometry for this challenging few-shot task. The mini-scene poses are brought
into a global reference frame through a robust pose synchronization step, where
a final global optimization of pose and scene can be performed. We show our
LU-NeRF pipeline outperforms prior attempts at unposed NeRF without making
restrictive assumptions on the pose prior. This allows us to operate in the
general SE(3) pose setting, unlike the baselines. Our results also indicate our
model can be complementary to feature-based SfM pipelines as it compares
favorably to COLMAP on low-texture and low-resolution images.