LU-NeRF : Estimation de scène et de pose par synchronisation de NeRFs locaux non posés

Résumé

Un obstacle majeur empêchant le déploiement généralisé des modèles NeRF dans des environnements réels est leur dépendance à des poses de caméra précises. Par conséquent, il y a un intérêt croissant pour étendre les modèles NeRF afin d'optimiser conjointement les poses de caméra et la représentation de la scène, offrant ainsi une alternative aux pipelines SfM prêts à l'emploi qui présentent des modes de défaillance bien connus. Les approches existantes pour les NeRF sans pose opèrent sous des hypothèses limitées, telles qu'une distribution de pose a priori ou une initialisation grossière de la pose, ce qui les rend moins efficaces dans un cadre général. Dans ce travail, nous proposons une nouvelle approche, LU-NeRF, qui estime conjointement les poses de caméra et les champs de radiance neuronaux avec des hypothèses assouplies sur la configuration des poses. Notre approche fonctionne de manière locale à globale, où nous optimisons d'abord des sous-ensembles locaux de données, appelés mini-scènes. LU-NeRF estime la pose et la géométrie locales pour cette tâche difficile en faible échantillonnage. Les poses des mini-scènes sont intégrées dans un référentiel global grâce à une étape de synchronisation robuste des poses, permettant une optimisation finale globale de la pose et de la scène. Nous montrons que notre pipeline LU-NeRF surpasse les tentatives précédentes de NeRF sans pose sans faire d'hypothèses restrictives sur la pose a priori. Cela nous permet d'opérer dans le cadre général des poses SE(3), contrairement aux approches de référence. Nos résultats indiquent également que notre modèle peut être complémentaire aux pipelines SfM basés sur des caractéristiques, car il se compare favorablement à COLMAP sur des images à faible texture et à faible résolution.

English

A critical obstacle preventing NeRF models from being deployed broadly in the wild is their reliance on accurate camera poses. Consequently, there is growing interest in extending NeRF models to jointly optimize camera poses and scene representation, which offers an alternative to off-the-shelf SfM pipelines which have well-understood failure modes. Existing approaches for unposed NeRF operate under limited assumptions, such as a prior pose distribution or coarse pose initialization, making them less effective in a general setting. In this work, we propose a novel approach, LU-NeRF, that jointly estimates camera poses and neural radiance fields with relaxed assumptions on pose configuration. Our approach operates in a local-to-global manner, where we first optimize over local subsets of the data, dubbed mini-scenes. LU-NeRF estimates local pose and geometry for this challenging few-shot task. The mini-scene poses are brought into a global reference frame through a robust pose synchronization step, where a final global optimization of pose and scene can be performed. We show our LU-NeRF pipeline outperforms prior attempts at unposed NeRF without making restrictive assumptions on the pose prior. This allows us to operate in the general SE(3) pose setting, unlike the baselines. Our results also indicate our model can be complementary to feature-based SfM pipelines as it compares favorably to COLMAP on low-texture and low-resolution images.

LU-NeRF : Estimation de scène et de pose par synchronisation de NeRFs locaux non posés

LU-NeRF: Scene and Pose Estimation by Synchronizing Local Unposed NeRFs

Résumé

Support