LU-NeRF: Estimativa de Cena e Pose por Sincronização de NeRFs Locais Não Posicionados

Resumo

Um obstáculo crítico que impede a ampla implantação de modelos NeRF em cenários reais é sua dependência de poses de câmera precisas. Consequentemente, há um interesse crescente em estender os modelos NeRF para otimizar conjuntamente as poses da câmera e a representação da cena, o que oferece uma alternativa aos pipelines SfM prontos para uso, que possuem modos de falha bem compreendidos. As abordagens existentes para NeRF sem poses operam sob suposições limitadas, como uma distribuição de poses prévia ou uma inicialização grosseira das poses, tornando-as menos eficazes em um cenário geral. Neste trabalho, propomos uma nova abordagem, o LU-NeRF, que estima conjuntamente as poses da câmera e os campos de radiação neural com suposições relaxadas sobre a configuração das poses. Nossa abordagem opera de maneira local para global, onde primeiro otimizamos subconjuntos locais dos dados, chamados de mini-cenas. O LU-NeRF estima a pose e a geometria locais para essa tarefa desafiadora de poucas amostras. As poses das mini-cenas são trazidas para um quadro de referência global por meio de uma etapa robusta de sincronização de poses, onde uma otimização global final da pose e da cena pode ser realizada. Mostramos que nosso pipeline LU-NeRF supera tentativas anteriores de NeRF sem poses, sem fazer suposições restritivas sobre a pose prévia. Isso nos permite operar no cenário geral de poses SE(3), ao contrário das linhas de base. Nossos resultados também indicam que nosso modelo pode ser complementar aos pipelines SfM baseados em características, pois se compara favoravelmente ao COLMAP em imagens de baixa textura e baixa resolução.

English

A critical obstacle preventing NeRF models from being deployed broadly in the wild is their reliance on accurate camera poses. Consequently, there is growing interest in extending NeRF models to jointly optimize camera poses and scene representation, which offers an alternative to off-the-shelf SfM pipelines which have well-understood failure modes. Existing approaches for unposed NeRF operate under limited assumptions, such as a prior pose distribution or coarse pose initialization, making them less effective in a general setting. In this work, we propose a novel approach, LU-NeRF, that jointly estimates camera poses and neural radiance fields with relaxed assumptions on pose configuration. Our approach operates in a local-to-global manner, where we first optimize over local subsets of the data, dubbed mini-scenes. LU-NeRF estimates local pose and geometry for this challenging few-shot task. The mini-scene poses are brought into a global reference frame through a robust pose synchronization step, where a final global optimization of pose and scene can be performed. We show our LU-NeRF pipeline outperforms prior attempts at unposed NeRF without making restrictive assumptions on the pose prior. This allows us to operate in the general SE(3) pose setting, unlike the baselines. Our results also indicate our model can be complementary to feature-based SfM pipelines as it compares favorably to COLMAP on low-texture and low-resolution images.

LU-NeRF: Estimativa de Cena e Pose por Sincronização de NeRFs Locais Não Posicionados

LU-NeRF: Scene and Pose Estimation by Synchronizing Local Unposed NeRFs

Resumo

Support