NeRFiller: Scènes voltooien via generatieve 3D-inpainting
NeRFiller: Completing Scenes via Generative 3D Inpainting
December 7, 2023
Auteurs: Ethan Weber, Aleksander Hołyński, Varun Jampani, Saurabh Saxena, Noah Snavely, Abhishek Kar, Angjoo Kanazawa
cs.AI
Samenvatting
We stellen NeRFiller voor, een aanpak die ontbrekende delen van een 3D-opname aanvult via generatieve 3D-inpainting met behulp van standaard 2D visuele generatieve modellen. Vaak ontbreken delen van een vastgelegde 3D-scène of object vanwege mesh-reconstructiefouten of een gebrek aan waarnemingen (bijvoorbeeld contactgebieden, zoals de onderkant van objecten, of moeilijk bereikbare gebieden). We benaderen dit uitdagende 3D-inpaintingprobleem door gebruik te maken van een 2D-inpainting diffusiemodel. We identificeren een verrassend gedrag van deze modellen, waarbij ze meer 3D-consistente inpaints genereren wanneer afbeeldingen een 2x2 raster vormen, en laten zien hoe dit gedrag kan worden gegeneraliseerd naar meer dan vier afbeeldingen. Vervolgens presenteren we een iteratief raamwerk om deze ingevulde regio's te destilleren tot een enkele consistente 3D-scène. In tegenstelling tot gerelateerde werken, richten we ons op het aanvullen van scènes in plaats van het verwijderen van voorgrondobjecten, en onze aanpak vereist geen nauwkeurige 2D-objectmaskers of tekst. We vergelijken onze aanpak met relevante baselines die zijn aangepast aan onze setting op een verscheidenheid aan scènes, waarbij NeRFiller de meest 3D-consistente en plausibele scèneaanvullingen creëert. Onze projectpagina is te vinden op https://ethanweber.me/nerfiller.
English
We propose NeRFiller, an approach that completes missing portions of a 3D
capture via generative 3D inpainting using off-the-shelf 2D visual generative
models. Often parts of a captured 3D scene or object are missing due to mesh
reconstruction failures or a lack of observations (e.g., contact regions, such
as the bottom of objects, or hard-to-reach areas). We approach this challenging
3D inpainting problem by leveraging a 2D inpainting diffusion model. We
identify a surprising behavior of these models, where they generate more 3D
consistent inpaints when images form a 2times2 grid, and show how to
generalize this behavior to more than four images. We then present an iterative
framework to distill these inpainted regions into a single consistent 3D scene.
In contrast to related works, we focus on completing scenes rather than
deleting foreground objects, and our approach does not require tight 2D object
masks or text. We compare our approach to relevant baselines adapted to our
setting on a variety of scenes, where NeRFiller creates the most 3D consistent
and plausible scene completions. Our project page is at
https://ethanweber.me/nerfiller.