ChatPaper.aiChatPaper

MonoPatchNeRF: Verbetering van Neural Radiance Fields met op patches gebaseerde monoculaire begeleiding

MonoPatchNeRF: Improving Neural Radiance Fields with Patch-based Monocular Guidance

April 12, 2024
Auteurs: Yuqun Wu, Jae Yong Lee, Chuhang Zou, Shenlong Wang, Derek Hoiem
cs.AI

Samenvatting

De nieuwste geregulariseerde Neural Radiance Field (NeRF) benaderingen leveren slechte geometrie en uitzichtsextrapolatie op voor multiview stereo (MVS) benchmarks zoals ETH3D. In dit artikel streven we ernaar om 3D-modellen te creëren die nauwkeurige geometrie en uitzichtsynthese bieden, waardoor de grote prestatiekloof op het gebied van geometrie tussen NeRF en traditionele MVS-methoden gedeeltelijk wordt gedicht. We stellen een patch-gebaseerde aanpak voor die effectief gebruikmaakt van monoculaire oppervlaktenormaal- en relatieve dieptevoorspellingen. De patch-gebaseerde straalmonstering maakt ook de regularisatie van het uiterlijk mogelijk door middel van genormaliseerde kruiscorrelatie (NCC) en structurele gelijkenis (SSIM) tussen willekeurig bemonsterde virtuele en trainingsbeelden. We tonen verder aan dat "dichtheidsbeperkingen" gebaseerd op sparse structure-from-motion punten de geometrische nauwkeurigheid aanzienlijk kunnen verbeteren met een lichte daling in de metingen voor nieuwe uitzichtsynthese. Onze experimenten laten een 4x betere prestatie zien dan RegNeRF en 8x beter dan FreeNeRF op de gemiddelde F1@2cm voor de ETH3D MVS benchmark, wat een vruchtbare onderzoeksrichting suggereert om de geometrische nauwkeurigheid van NeRF-gebaseerde modellen te verbeteren, en licht werpt op een potentiële toekomstige aanpak om NeRF-gebaseerde optimalisatie uiteindelijk traditionele MVS te laten overtreffen.
English
The latest regularized Neural Radiance Field (NeRF) approaches produce poor geometry and view extrapolation for multiview stereo (MVS) benchmarks such as ETH3D. In this paper, we aim to create 3D models that provide accurate geometry and view synthesis, partially closing the large geometric performance gap between NeRF and traditional MVS methods. We propose a patch-based approach that effectively leverages monocular surface normal and relative depth predictions. The patch-based ray sampling also enables the appearance regularization of normalized cross-correlation (NCC) and structural similarity (SSIM) between randomly sampled virtual and training views. We further show that "density restrictions" based on sparse structure-from-motion points can help greatly improve geometric accuracy with a slight drop in novel view synthesis metrics. Our experiments show 4x the performance of RegNeRF and 8x that of FreeNeRF on average F1@2cm for ETH3D MVS benchmark, suggesting a fruitful research direction to improve the geometric accuracy of NeRF-based models, and sheds light on a potential future approach to enable NeRF-based optimization to eventually outperform traditional MVS.
PDF60December 15, 2024