NeRFiller: Completamento di scene tramite inpaintig generativo 3D
NeRFiller: Completing Scenes via Generative 3D Inpainting
December 7, 2023
Autori: Ethan Weber, Aleksander Hołyński, Varun Jampani, Saurabh Saxena, Noah Snavely, Abhishek Kar, Angjoo Kanazawa
cs.AI
Abstract
Proponiamo NeRFiller, un approccio che completa le porzioni mancanti di una cattura 3D attraverso l'inpainting generativo 3D utilizzando modelli generativi visivi 2D disponibili sul mercato. Spesso parti di una scena o di un oggetto catturati in 3D risultano mancanti a causa di fallimenti nella ricostruzione della mesh o della mancanza di osservazioni (ad esempio, regioni di contatto come il fondo degli oggetti o aree difficili da raggiungere). Affrontiamo questo impegnativo problema di inpainting 3D sfruttando un modello di diffusione per l'inpainting 2D. Identifichiamo un comportamento sorprendente di questi modelli, in cui generano inpainting più coerenti in 3D quando le immagini formano una griglia 2x2, e mostriamo come generalizzare questo comportamento a più di quattro immagini. Presentiamo quindi un framework iterativo per distillare queste regioni inpainting in una singola scena 3D coerente. A differenza di lavori correlati, ci concentriamo sul completamento delle scene piuttosto che sulla rimozione di oggetti in primo piano, e il nostro approccio non richiede maschere 2D precise degli oggetti o testo. Confrontiamo il nostro approccio con baseline rilevanti adattati al nostro contesto su una varietà di scene, dove NeRFiller crea i completamenti di scena più coerenti e plausibili in 3D. La nostra pagina del progetto è disponibile all'indirizzo https://ethanweber.me/nerfiller.
English
We propose NeRFiller, an approach that completes missing portions of a 3D
capture via generative 3D inpainting using off-the-shelf 2D visual generative
models. Often parts of a captured 3D scene or object are missing due to mesh
reconstruction failures or a lack of observations (e.g., contact regions, such
as the bottom of objects, or hard-to-reach areas). We approach this challenging
3D inpainting problem by leveraging a 2D inpainting diffusion model. We
identify a surprising behavior of these models, where they generate more 3D
consistent inpaints when images form a 2times2 grid, and show how to
generalize this behavior to more than four images. We then present an iterative
framework to distill these inpainted regions into a single consistent 3D scene.
In contrast to related works, we focus on completing scenes rather than
deleting foreground objects, and our approach does not require tight 2D object
masks or text. We compare our approach to relevant baselines adapted to our
setting on a variety of scenes, where NeRFiller creates the most 3D consistent
and plausible scene completions. Our project page is at
https://ethanweber.me/nerfiller.