NeRFiller: Completando Cenas via Preenchimento Generativo 3D

Resumo

Propomos o NeRFiller, uma abordagem que completa porções ausentes de uma captura 3D por meio de preenchimento generativo 3D utilizando modelos generativos visuais 2D prontos para uso. Frequentemente, partes de uma cena ou objeto 3D capturados estão faltando devido a falhas na reconstrução da malha ou à falta de observações (por exemplo, regiões de contato, como a base de objetos, ou áreas de difícil acesso). Abordamos esse desafiador problema de preenchimento 3D aproveitando um modelo de difusão para preenchimento 2D. Identificamos um comportamento surpreendente desses modelos, onde eles geram preenchimentos mais consistentes em 3D quando as imagens formam uma grade 2x2, e mostramos como generalizar esse comportamento para mais de quatro imagens. Em seguida, apresentamos um framework iterativo para destilar essas regiões preenchidas em uma única cena 3D consistente. Em contraste com trabalhos relacionados, focamos em completar cenas em vez de remover objetos em primeiro plano, e nossa abordagem não requer máscaras 2D precisas de objetos ou texto. Comparamos nossa abordagem com baselines relevantes adaptadas ao nosso cenário em uma variedade de cenas, onde o NeRFiller cria as completações de cena mais consistentes e plausíveis em 3D. Nossa página do projeto está em https://ethanweber.me/nerfiller.

English

We propose NeRFiller, an approach that completes missing portions of a 3D capture via generative 3D inpainting using off-the-shelf 2D visual generative models. Often parts of a captured 3D scene or object are missing due to mesh reconstruction failures or a lack of observations (e.g., contact regions, such as the bottom of objects, or hard-to-reach areas). We approach this challenging 3D inpainting problem by leveraging a 2D inpainting diffusion model. We identify a surprising behavior of these models, where they generate more 3D consistent inpaints when images form a 2times2 grid, and show how to generalize this behavior to more than four images. We then present an iterative framework to distill these inpainted regions into a single consistent 3D scene. In contrast to related works, we focus on completing scenes rather than deleting foreground objects, and our approach does not require tight 2D object masks or text. We compare our approach to relevant baselines adapted to our setting on a variety of scenes, where NeRFiller creates the most 3D consistent and plausible scene completions. Our project page is at https://ethanweber.me/nerfiller.

NeRFiller: Completando Cenas via Preenchimento Generativo 3D

NeRFiller: Completing Scenes via Generative 3D Inpainting

Resumo

Support