MonoPatchNeRF : Amélioration des champs de rayonnement neuronaux grâce à une guidance monoscopique basée sur des patchs
MonoPatchNeRF: Improving Neural Radiance Fields with Patch-based Monocular Guidance
April 12, 2024
Auteurs: Yuqun Wu, Jae Yong Lee, Chuhang Zou, Shenlong Wang, Derek Hoiem
cs.AI
Résumé
Les dernières approches régularisées de Neural Radiance Field (NeRF) produisent une géométrie et une extrapolation de vue médiocres pour les benchmarks de stéréo multivue (MVS) tels qu'ETH3D. Dans cet article, nous visons à créer des modèles 3D qui fournissent une géométrie précise et une synthèse de vue, réduisant partiellement l'écart de performance géométrique important entre NeRF et les méthodes MVS traditionnelles. Nous proposons une approche basée sur des patches qui exploite efficacement les prédictions de normales de surface monoculaires et de profondeur relative. L'échantillonnage de rayons basé sur des patches permet également la régularisation de l'apparence par corrélation croisée normalisée (NCC) et similarité structurelle (SSIM) entre des vues virtuelles et d'entraînement échantillonnées aléatoirement. Nous montrons en outre que des "restrictions de densité" basées sur des points de structure-from-motion épars peuvent grandement améliorer la précision géométrique avec une légère baisse des métriques de synthèse de nouvelles vues. Nos expériences montrent une performance 4 fois supérieure à celle de RegNeRF et 8 fois supérieure à celle de FreeNeRF en moyenne F1@2cm pour le benchmark MVS ETH3D, suggérant une direction de recherche prometteuse pour améliorer la précision géométrique des modèles basés sur NeRF, et éclairant une approche future potentielle pour permettre à l'optimisation basée sur NeRF de surpasser finalement les méthodes MVS traditionnelles.
English
The latest regularized Neural Radiance Field (NeRF) approaches produce poor
geometry and view extrapolation for multiview stereo (MVS) benchmarks such as
ETH3D. In this paper, we aim to create 3D models that provide accurate geometry
and view synthesis, partially closing the large geometric performance gap
between NeRF and traditional MVS methods. We propose a patch-based approach
that effectively leverages monocular surface normal and relative depth
predictions. The patch-based ray sampling also enables the appearance
regularization of normalized cross-correlation (NCC) and structural similarity
(SSIM) between randomly sampled virtual and training views. We further show
that "density restrictions" based on sparse structure-from-motion points can
help greatly improve geometric accuracy with a slight drop in novel view
synthesis metrics. Our experiments show 4x the performance of RegNeRF and 8x
that of FreeNeRF on average F1@2cm for ETH3D MVS benchmark, suggesting a
fruitful research direction to improve the geometric accuracy of NeRF-based
models, and sheds light on a potential future approach to enable NeRF-based
optimization to eventually outperform traditional MVS.Summary
AI-Generated Summary