MonoPatchNeRF: Verbesserung von Neuralen Strahlungsfeldern mit patchbasierte monokulare Führung
MonoPatchNeRF: Improving Neural Radiance Fields with Patch-based Monocular Guidance
April 12, 2024
Autoren: Yuqun Wu, Jae Yong Lee, Chuhang Zou, Shenlong Wang, Derek Hoiem
cs.AI
Zusammenfassung
Die neuesten regulierten Neural Radiance Field (NeRF) Ansätze liefern schlechte Geometrie und Ansichtsextrapolation für Multiview Stereo (MVS) Benchmarks wie ETH3D. In diesem Artikel zielen wir darauf ab, 3D-Modelle zu erstellen, die präzise Geometrie und Ansichtssynthese bieten und teilweise die große geometrische Leistungslücke zwischen NeRF und traditionellen MVS-Methoden schließen. Wir schlagen einen patchbasierten Ansatz vor, der effektiv monokulare Oberflächennormalen und relative Tiefenvorhersagen nutzt. Die patchbasierte Strahlenabtastung ermöglicht auch die Erscheinungsregulierung der normalisierten Kreuzkorrelation (NCC) und der strukturellen Ähnlichkeit (SSIM) zwischen zufällig ausgewählten virtuellen und Trainingsansichten. Wir zeigen weiterhin, dass "Dichtebeschränkungen" basierend auf spärlichen Struktur-aus-Bewegungspunkten die geometrische Genauigkeit erheblich verbessern können, bei einem leichten Rückgang der Metriken für die Synthese neuer Ansichten. Unsere Experimente zeigen eine Leistungssteigerung um das 4-fache gegenüber RegNeRF und das 8-fache gegenüber FreeNeRF im Durchschnitt von F1@2cm für den ETH3D MVS-Benchmark, was auf eine vielversprechende Forschungsrichtung zur Verbesserung der geometrischen Genauigkeit von NeRF-basierten Modellen hinweist und einen potenziellen zukünftigen Ansatz beleuchtet, um die NeRF-basierte Optimierung letztendlich besser als traditionelle MVS-Methoden zu machen.
English
The latest regularized Neural Radiance Field (NeRF) approaches produce poor
geometry and view extrapolation for multiview stereo (MVS) benchmarks such as
ETH3D. In this paper, we aim to create 3D models that provide accurate geometry
and view synthesis, partially closing the large geometric performance gap
between NeRF and traditional MVS methods. We propose a patch-based approach
that effectively leverages monocular surface normal and relative depth
predictions. The patch-based ray sampling also enables the appearance
regularization of normalized cross-correlation (NCC) and structural similarity
(SSIM) between randomly sampled virtual and training views. We further show
that "density restrictions" based on sparse structure-from-motion points can
help greatly improve geometric accuracy with a slight drop in novel view
synthesis metrics. Our experiments show 4x the performance of RegNeRF and 8x
that of FreeNeRF on average F1@2cm for ETH3D MVS benchmark, suggesting a
fruitful research direction to improve the geometric accuracy of NeRF-based
models, and sheds light on a potential future approach to enable NeRF-based
optimization to eventually outperform traditional MVS.Summary
AI-Generated Summary