LU-NeRF: Scène- en pose-schatting door synchronisatie van lokale ongeposeerde NeRFs

Samenvatting

Een kritisch obstakel dat de brede inzet van NeRF-modellen in de praktijk belemmert, is hun afhankelijkheid van nauwkeurige cameraposities. Hierdoor is er een groeiende interesse in het uitbreiden van NeRF-modellen om cameraposities en scèneweergave gezamenlijk te optimaliseren, wat een alternatief biedt voor standaard SfM-pipelines die bekende faalmodi hebben. Bestaande benaderingen voor NeRF zonder vooraf bekende posities werken onder beperkte aannames, zoals een vooraf bepaalde positiestelling of een ruwe initiële positie, waardoor ze minder effectief zijn in een algemene setting. In dit werk stellen we een nieuwe benadering voor, LU-NeRF, die cameraposities en neurale radiance fields gezamenlijk schat met versoepelde aannames over de positieconfiguratie. Onze benadering werkt op een lokaal-naar-globale manier, waarbij we eerst optimaliseren over lokale subsets van de data, zogenaamde mini-scènes. LU-NeRF schat lokale posities en geometrie voor deze uitdagende few-shot taak. De mini-scène posities worden in een globaal referentiekader gebracht via een robuuste posesynchronisatiestap, waarna een laatste globale optimalisatie van positie en scène kan worden uitgevoerd. We laten zien dat onze LU-NeRF-pipeline eerdere pogingen tot NeRF zonder vooraf bekende posities overtreft, zonder beperkende aannames te maken over de positie. Dit stelt ons in staat om te werken in de algemene SE(3) positie-instelling, in tegenstelling tot de baseline-modellen. Onze resultaten geven ook aan dat ons model complementair kan zijn aan feature-gebaseerde SfM-pipelines, aangezien het gunstig afsteekt tegen COLMAP bij afbeeldingen met weinig textuur en lage resolutie.

English

A critical obstacle preventing NeRF models from being deployed broadly in the wild is their reliance on accurate camera poses. Consequently, there is growing interest in extending NeRF models to jointly optimize camera poses and scene representation, which offers an alternative to off-the-shelf SfM pipelines which have well-understood failure modes. Existing approaches for unposed NeRF operate under limited assumptions, such as a prior pose distribution or coarse pose initialization, making them less effective in a general setting. In this work, we propose a novel approach, LU-NeRF, that jointly estimates camera poses and neural radiance fields with relaxed assumptions on pose configuration. Our approach operates in a local-to-global manner, where we first optimize over local subsets of the data, dubbed mini-scenes. LU-NeRF estimates local pose and geometry for this challenging few-shot task. The mini-scene poses are brought into a global reference frame through a robust pose synchronization step, where a final global optimization of pose and scene can be performed. We show our LU-NeRF pipeline outperforms prior attempts at unposed NeRF without making restrictive assumptions on the pose prior. This allows us to operate in the general SE(3) pose setting, unlike the baselines. Our results also indicate our model can be complementary to feature-based SfM pipelines as it compares favorably to COLMAP on low-texture and low-resolution images.

LU-NeRF: Scène- en pose-schatting door synchronisatie van lokale ongeposeerde NeRFs

LU-NeRF: Scene and Pose Estimation by Synchronizing Local Unposed NeRFs

Samenvatting

Support