MonoPatchNeRF: Aprimorando Campos de Radiosidade Neural com Orientação Monocular Baseada em Patches
MonoPatchNeRF: Improving Neural Radiance Fields with Patch-based Monocular Guidance
April 12, 2024
Autores: Yuqun Wu, Jae Yong Lee, Chuhang Zou, Shenlong Wang, Derek Hoiem
cs.AI
Resumo
As abordagens mais recentes de Campos de Radiação Neural Regularizados (NeRF) produzem geometria e extrapolação de visão deficientes para benchmarks de estereoscopia multivista (MVS), como o ETH3D. Neste artigo, buscamos criar modelos 3D que forneçam geometria precisa e síntese de visão, reduzindo parcialmente a grande lacuna de desempenho geométrico entre o NeRF e os métodos tradicionais de MVS. Propomos uma abordagem baseada em patches que utiliza efetivamente previsões de normais de superfície monoculares e profundidade relativa. A amostragem de raios baseada em patches também permite a regularização de aparência da correlação cruzada normalizada (NCC) e da similaridade estrutural (SSIM) entre visões virtuais e de treinamento amostradas aleatoriamente. Além disso, demonstramos que "restrições de densidade" baseadas em pontos esparsos de estrutura a partir de movimento podem ajudar a melhorar significativamente a precisão geométrica com uma leve queda nas métricas de síntese de novas visões. Nossos experimentos mostram um desempenho 4 vezes superior ao RegNeRF e 8 vezes superior ao FreeNeRF na média F1@2cm para o benchmark MVS ETH3D, sugerindo uma direção de pesquisa promissora para melhorar a precisão geométrica de modelos baseados em NeRF e lançando luz sobre uma abordagem futura potencial para permitir que a otimização baseada em NeRF supere eventualmente os métodos tradicionais de MVS.
English
The latest regularized Neural Radiance Field (NeRF) approaches produce poor
geometry and view extrapolation for multiview stereo (MVS) benchmarks such as
ETH3D. In this paper, we aim to create 3D models that provide accurate geometry
and view synthesis, partially closing the large geometric performance gap
between NeRF and traditional MVS methods. We propose a patch-based approach
that effectively leverages monocular surface normal and relative depth
predictions. The patch-based ray sampling also enables the appearance
regularization of normalized cross-correlation (NCC) and structural similarity
(SSIM) between randomly sampled virtual and training views. We further show
that "density restrictions" based on sparse structure-from-motion points can
help greatly improve geometric accuracy with a slight drop in novel view
synthesis metrics. Our experiments show 4x the performance of RegNeRF and 8x
that of FreeNeRF on average F1@2cm for ETH3D MVS benchmark, suggesting a
fruitful research direction to improve the geometric accuracy of NeRF-based
models, and sheds light on a potential future approach to enable NeRF-based
optimization to eventually outperform traditional MVS.