ReconFusion : Reconstruction 3D avec a priori de diffusion
ReconFusion: 3D Reconstruction with Diffusion Priors
December 5, 2023
Auteurs: Rundi Wu, Ben Mildenhall, Philipp Henzler, Keunhong Park, Ruiqi Gao, Daniel Watson, Pratul P. Srinivasan, Dor Verbin, Jonathan T. Barron, Ben Poole, Aleksander Holynski
cs.AI
Résumé
Les méthodes de reconstruction 3D telles que les champs de radiance neuronaux (NeRFs) excellent dans le rendu de nouvelles vues photoréalistes de scènes complexes. Cependant, la récupération d'un NeRF de haute qualité nécessite généralement des dizaines à des centaines d'images d'entrée, ce qui rend le processus de capture long et fastidieux. Nous présentons ReconFusion pour reconstruire des scènes du monde réel en utilisant seulement quelques photos. Notre approche exploite un a priori de diffusion pour la synthèse de nouvelles vues, entraîné sur des ensembles de données synthétiques et multivues, qui régularise un pipeline de reconstruction 3D basé sur NeRF pour des poses de caméra nouvelles au-delà de celles capturées par l'ensemble des images d'entrée. Notre méthode synthétise une géométrie et une texture réalistes dans les régions sous-contraintes tout en préservant l'apparence des régions observées. Nous effectuons une évaluation approfondie sur divers ensembles de données du monde réel, incluant des scènes frontales et à 360 degrés, démontrant des améliorations significatives par rapport aux approches précédentes de reconstruction NeRF avec peu de vues.
English
3D reconstruction methods such as Neural Radiance Fields (NeRFs) excel at
rendering photorealistic novel views of complex scenes. However, recovering a
high-quality NeRF typically requires tens to hundreds of input images,
resulting in a time-consuming capture process. We present ReconFusion to
reconstruct real-world scenes using only a few photos. Our approach leverages a
diffusion prior for novel view synthesis, trained on synthetic and multiview
datasets, which regularizes a NeRF-based 3D reconstruction pipeline at novel
camera poses beyond those captured by the set of input images. Our method
synthesizes realistic geometry and texture in underconstrained regions while
preserving the appearance of observed regions. We perform an extensive
evaluation across various real-world datasets, including forward-facing and
360-degree scenes, demonstrating significant performance improvements over
previous few-view NeRF reconstruction approaches.