LU-NeRF: Stima della Scena e della Posizione attraverso la Sincronizzazione di NeRF Locali Non Posizionati

Abstract

Un ostacolo critico che impedisce una diffusione su vasta scala dei modelli NeRF è la loro dipendenza da pose della camera accurate. Di conseguenza, cresce l'interesse nell'estendere i modelli NeRF per ottimizzare congiuntamente le pose della camera e la rappresentazione della scena, offrendo un'alternativa alle pipeline SfM predefinite che presentano modalità di fallimento ben note. Gli approcci esistenti per NeRF senza pose operano con ipotesi limitate, come una distribuzione a priori delle pose o un'inizializzazione approssimativa delle pose, rendendoli meno efficaci in un contesto generale. In questo lavoro, proponiamo un approccio innovativo, LU-NeRF, che stima congiuntamente le pose della camera e i campi di radianza neurali con ipotesi rilassate sulla configurazione delle pose. Il nostro approccio opera in modo locale-globale, dove prima ottimizziamo su sottoinsiemi locali dei dati, denominati mini-scene. LU-NeRF stima la pose locale e la geometria per questo impegnativo compito few-shot. Le pose delle mini-scene vengono portate in un sistema di riferimento globale attraverso un passo di sincronizzazione robusta delle pose, dove è possibile eseguire un'ottimizzazione finale globale della pose e della scena. Dimostriamo che la nostra pipeline LU-NeRF supera i precedenti tentativi di NeRF senza pose senza fare ipotesi restrittive sulla priorità delle pose. Questo ci permette di operare nel contesto generale delle pose SE(3), a differenza delle baseline. I nostri risultati indicano inoltre che il nostro modello può essere complementare alle pipeline SfM basate su feature, poiché si confronta favorevolmente con COLMAP su immagini a bassa texture e bassa risoluzione.

English

A critical obstacle preventing NeRF models from being deployed broadly in the wild is their reliance on accurate camera poses. Consequently, there is growing interest in extending NeRF models to jointly optimize camera poses and scene representation, which offers an alternative to off-the-shelf SfM pipelines which have well-understood failure modes. Existing approaches for unposed NeRF operate under limited assumptions, such as a prior pose distribution or coarse pose initialization, making them less effective in a general setting. In this work, we propose a novel approach, LU-NeRF, that jointly estimates camera poses and neural radiance fields with relaxed assumptions on pose configuration. Our approach operates in a local-to-global manner, where we first optimize over local subsets of the data, dubbed mini-scenes. LU-NeRF estimates local pose and geometry for this challenging few-shot task. The mini-scene poses are brought into a global reference frame through a robust pose synchronization step, where a final global optimization of pose and scene can be performed. We show our LU-NeRF pipeline outperforms prior attempts at unposed NeRF without making restrictive assumptions on the pose prior. This allows us to operate in the general SE(3) pose setting, unlike the baselines. Our results also indicate our model can be complementary to feature-based SfM pipelines as it compares favorably to COLMAP on low-texture and low-resolution images.

LU-NeRF: Stima della Scena e della Posizione attraverso la Sincronizzazione di NeRF Locali Non Posizionati

LU-NeRF: Scene and Pose Estimation by Synchronizing Local Unposed NeRFs

Abstract

Support