MonoPatchNeRF: Miglioramento dei Campi di Radianza Neurale con Guida Monoculare Basata su Patch
MonoPatchNeRF: Improving Neural Radiance Fields with Patch-based Monocular Guidance
April 12, 2024
Autori: Yuqun Wu, Jae Yong Lee, Chuhang Zou, Shenlong Wang, Derek Hoiem
cs.AI
Abstract
I più recenti approcci regolarizzati di Neural Radiance Field (NeRF) producono geometrie scadenti e un'estrapolazione della vista insoddisfacente per benchmark di stereo multivista (MVS) come ETH3D. In questo articolo, ci proponiamo di creare modelli 3D che forniscano una geometria accurata e una sintesi delle viste, riducendo parzialmente il significativo divario prestazionale in termini di geometria tra NeRF e i metodi MVS tradizionali. Proponiamo un approccio basato su patch che sfrutta efficacemente le previsioni di normali superficiali monoculari e di profondità relativa. Il campionamento dei raggi basato su patch consente inoltre la regolarizzazione dell'aspetto attraverso la correlazione incrociata normalizzata (NCC) e la similarità strutturale (SSIM) tra viste virtuali e di addestramento campionate casualmente. Dimostriamo inoltre che le "restrizioni di densità" basate su punti sparsi ricostruiti tramite structure-from-motion possono migliorare notevolmente l'accuratezza geometrica con un lieve calo nelle metriche di sintesi di nuove viste. I nostri esperimenti mostrano un miglioramento di 4 volte rispetto a RegNeRF e di 8 volte rispetto a FreeNeRF nella media di F1@2cm per il benchmark MVS ETH3D, suggerendo una direzione di ricerca promettente per migliorare l'accuratezza geometrica dei modelli basati su NeRF e gettando luce su un potenziale approccio futuro che potrebbe consentire all'ottimizzazione basata su NeRF di superare, alla fine, i metodi MVS tradizionali.
English
The latest regularized Neural Radiance Field (NeRF) approaches produce poor
geometry and view extrapolation for multiview stereo (MVS) benchmarks such as
ETH3D. In this paper, we aim to create 3D models that provide accurate geometry
and view synthesis, partially closing the large geometric performance gap
between NeRF and traditional MVS methods. We propose a patch-based approach
that effectively leverages monocular surface normal and relative depth
predictions. The patch-based ray sampling also enables the appearance
regularization of normalized cross-correlation (NCC) and structural similarity
(SSIM) between randomly sampled virtual and training views. We further show
that "density restrictions" based on sparse structure-from-motion points can
help greatly improve geometric accuracy with a slight drop in novel view
synthesis metrics. Our experiments show 4x the performance of RegNeRF and 8x
that of FreeNeRF on average F1@2cm for ETH3D MVS benchmark, suggesting a
fruitful research direction to improve the geometric accuracy of NeRF-based
models, and sheds light on a potential future approach to enable NeRF-based
optimization to eventually outperform traditional MVS.