LU-NeRF: Оценка сцены и позы путем синхронизации локальных не позированных NeRF
LU-NeRF: Scene and Pose Estimation by Synchronizing Local Unposed NeRFs
June 8, 2023
Авторы: Zezhou Cheng, Carlos Esteves, Varun Jampani, Abhishek Kar, Subhransu Maji, Ameesh Makadia
cs.AI
Аннотация
Ключевым препятствием для широкого применения моделей NeRF в реальных условиях является их зависимость от точных поз камер. В связи с этим растет интерес к расширению моделей NeRF для совместной оптимизации поз камер и представления сцены, что предлагает альтернативу готовым SfM-пайплайнам, которые имеют хорошо изученные случаи сбоев. Существующие подходы для NeRF без заданных поз работают в рамках ограниченных предположений, таких как априорное распределение поз или грубая инициализация поз, что делает их менее эффективными в общем случае. В данной работе мы предлагаем новый подход, LU-NeRF, который совместно оценивает позы камер и нейронные поля излучения с ослабленными предположениями о конфигурации поз. Наш подход работает по принципу от локального к глобальному, где сначала оптимизируются локальные подмножества данных, называемые мини-сценами. LU-NeRF оценивает локальные позы и геометрию для этой сложной задачи с малым количеством данных. Позы мини-сцен приводятся к глобальной системе отсчета через этап синхронизации поз, где затем выполняется финальная глобальная оптимизация поз и сцены. Мы показываем, что наш пайплайн LU-NeRF превосходит предыдущие попытки работы с NeRF без заданных поз, не делая ограничительных предположений о позах. Это позволяет нам работать в общем случае SE(3), в отличие от базовых подходов. Наши результаты также указывают на то, что наша модель может быть дополнением к feature-based SfM-пайплайнам, так как она показывает лучшие результаты по сравнению с COLMAP на изображениях с низкой текстурой и низким разрешением.
English
A critical obstacle preventing NeRF models from being deployed broadly in the
wild is their reliance on accurate camera poses. Consequently, there is growing
interest in extending NeRF models to jointly optimize camera poses and scene
representation, which offers an alternative to off-the-shelf SfM pipelines
which have well-understood failure modes. Existing approaches for unposed NeRF
operate under limited assumptions, such as a prior pose distribution or coarse
pose initialization, making them less effective in a general setting. In this
work, we propose a novel approach, LU-NeRF, that jointly estimates camera poses
and neural radiance fields with relaxed assumptions on pose configuration. Our
approach operates in a local-to-global manner, where we first optimize over
local subsets of the data, dubbed mini-scenes. LU-NeRF estimates local pose and
geometry for this challenging few-shot task. The mini-scene poses are brought
into a global reference frame through a robust pose synchronization step, where
a final global optimization of pose and scene can be performed. We show our
LU-NeRF pipeline outperforms prior attempts at unposed NeRF without making
restrictive assumptions on the pose prior. This allows us to operate in the
general SE(3) pose setting, unlike the baselines. Our results also indicate our
model can be complementary to feature-based SfM pipelines as it compares
favorably to COLMAP on low-texture and low-resolution images.