NeRFiller: Completando Cenas via Preenchimento Generativo 3D
NeRFiller: Completing Scenes via Generative 3D Inpainting
December 7, 2023
Autores: Ethan Weber, Aleksander Hołyński, Varun Jampani, Saurabh Saxena, Noah Snavely, Abhishek Kar, Angjoo Kanazawa
cs.AI
Resumo
Propomos o NeRFiller, uma abordagem que completa porções ausentes de uma captura 3D por meio de preenchimento generativo 3D utilizando modelos generativos visuais 2D prontos para uso. Frequentemente, partes de uma cena ou objeto 3D capturados estão faltando devido a falhas na reconstrução da malha ou à falta de observações (por exemplo, regiões de contato, como a base de objetos, ou áreas de difícil acesso). Abordamos esse desafiador problema de preenchimento 3D aproveitando um modelo de difusão para preenchimento 2D. Identificamos um comportamento surpreendente desses modelos, onde eles geram preenchimentos mais consistentes em 3D quando as imagens formam uma grade 2x2, e mostramos como generalizar esse comportamento para mais de quatro imagens. Em seguida, apresentamos um framework iterativo para destilar essas regiões preenchidas em uma única cena 3D consistente. Em contraste com trabalhos relacionados, focamos em completar cenas em vez de remover objetos em primeiro plano, e nossa abordagem não requer máscaras 2D precisas de objetos ou texto. Comparamos nossa abordagem com baselines relevantes adaptadas ao nosso cenário em uma variedade de cenas, onde o NeRFiller cria as completações de cena mais consistentes e plausíveis em 3D. Nossa página do projeto está em https://ethanweber.me/nerfiller.
English
We propose NeRFiller, an approach that completes missing portions of a 3D
capture via generative 3D inpainting using off-the-shelf 2D visual generative
models. Often parts of a captured 3D scene or object are missing due to mesh
reconstruction failures or a lack of observations (e.g., contact regions, such
as the bottom of objects, or hard-to-reach areas). We approach this challenging
3D inpainting problem by leveraging a 2D inpainting diffusion model. We
identify a surprising behavior of these models, where they generate more 3D
consistent inpaints when images form a 2times2 grid, and show how to
generalize this behavior to more than four images. We then present an iterative
framework to distill these inpainted regions into a single consistent 3D scene.
In contrast to related works, we focus on completing scenes rather than
deleting foreground objects, and our approach does not require tight 2D object
masks or text. We compare our approach to relevant baselines adapted to our
setting on a variety of scenes, where NeRFiller creates the most 3D consistent
and plausible scene completions. Our project page is at
https://ethanweber.me/nerfiller.