ReconFusion: 3D-реконструкция с использованием диффузионных априорных моделей
ReconFusion: 3D Reconstruction with Diffusion Priors
December 5, 2023
Авторы: Rundi Wu, Ben Mildenhall, Philipp Henzler, Keunhong Park, Ruiqi Gao, Daniel Watson, Pratul P. Srinivasan, Dor Verbin, Jonathan T. Barron, Ben Poole, Aleksander Holynski
cs.AI
Аннотация
Методы 3D-реконструкции, такие как Neural Radiance Fields (NeRF), превосходно справляются с созданием фотореалистичных изображений сложных сцен с новых ракурсов. Однако для восстановления высококачественной NeRF обычно требуется десятки или даже сотни исходных изображений, что делает процесс съемки трудоемким. Мы представляем ReconFusion — метод реконструкции реальных сцен с использованием всего нескольких фотографий. Наш подход использует диффузионный априор для синтеза новых видов, обученный на синтетических и многовидовых наборах данных, который регулирует процесс 3D-реконструкции на основе NeRF для новых положений камеры, выходящих за пределы тех, что были зафиксированы в исходных изображениях. Наш метод синтезирует реалистичную геометрию и текстуру в недостаточно ограниченных областях, сохраняя при этом внешний вид наблюдаемых участков. Мы проводим всестороннюю оценку на различных наборах данных реальных сцен, включая фронтальные и 360-градусные сцены, демонстрируя значительное улучшение производительности по сравнению с предыдущими подходами к реконструкции NeRF с ограниченным количеством видов.
English
3D reconstruction methods such as Neural Radiance Fields (NeRFs) excel at
rendering photorealistic novel views of complex scenes. However, recovering a
high-quality NeRF typically requires tens to hundreds of input images,
resulting in a time-consuming capture process. We present ReconFusion to
reconstruct real-world scenes using only a few photos. Our approach leverages a
diffusion prior for novel view synthesis, trained on synthetic and multiview
datasets, which regularizes a NeRF-based 3D reconstruction pipeline at novel
camera poses beyond those captured by the set of input images. Our method
synthesizes realistic geometry and texture in underconstrained regions while
preserving the appearance of observed regions. We perform an extensive
evaluation across various real-world datasets, including forward-facing and
360-degree scenes, demonstrating significant performance improvements over
previous few-view NeRF reconstruction approaches.