MonoPatchNeRF: Улучшение нейронных полей радиации с патч-ориентированным монокулярным руководством
MonoPatchNeRF: Improving Neural Radiance Fields with Patch-based Monocular Guidance
April 12, 2024
Авторы: Yuqun Wu, Jae Yong Lee, Chuhang Zou, Shenlong Wang, Derek Hoiem
cs.AI
Аннотация
Последние регуляризованные подходы к нейронному полю радиационной яркости (NeRF) проявляют недостаточную геометрию и экстраполяцию видов для бенчмарков мультивидовой стереосъемки (MVS), таких как ETH3D. В данной статье мы стремимся создать трехмерные модели, обеспечивающие точную геометрию и синтез вида, частично уменьшая большой геометрический разрыв в производительности между NeRF и традиционными методами MVS. Мы предлагаем подход на основе патчей, который эффективно использует предсказания монокулярной поверхностной нормали и относительной глубины. Отбор лучей на основе патчей также позволяет регуляризацию внешнего вида нормализованной кросс-корреляции (NCC) и структурной схожести (SSIM) между случайно выбранными виртуальными и обучающими видами. Мы также показываем, что "ограничения плотности" на основе разреженных точек структуры движения могут значительно улучшить геометрическую точность при небольшом снижении метрик синтеза нового вида. Наши эксперименты показывают в 4 раза более высокую производительность по сравнению с RegNeRF и в 8 раз выше, чем у FreeNeRF, по среднему значению F1@2cm для бенчмарка ETH3D MVS, что указывает на перспективное направление исследований для улучшения геометрической точности моделей на основе NeRF и проливает свет на потенциальный будущий подход для обеспечения превосходства оптимизации на основе NeRF перед традиционными методами MVS.
English
The latest regularized Neural Radiance Field (NeRF) approaches produce poor
geometry and view extrapolation for multiview stereo (MVS) benchmarks such as
ETH3D. In this paper, we aim to create 3D models that provide accurate geometry
and view synthesis, partially closing the large geometric performance gap
between NeRF and traditional MVS methods. We propose a patch-based approach
that effectively leverages monocular surface normal and relative depth
predictions. The patch-based ray sampling also enables the appearance
regularization of normalized cross-correlation (NCC) and structural similarity
(SSIM) between randomly sampled virtual and training views. We further show
that "density restrictions" based on sparse structure-from-motion points can
help greatly improve geometric accuracy with a slight drop in novel view
synthesis metrics. Our experiments show 4x the performance of RegNeRF and 8x
that of FreeNeRF on average F1@2cm for ETH3D MVS benchmark, suggesting a
fruitful research direction to improve the geometric accuracy of NeRF-based
models, and sheds light on a potential future approach to enable NeRF-based
optimization to eventually outperform traditional MVS.Summary
AI-Generated Summary