NeRFiller: Completado de escenas mediante inpainting generativo en 3D

Resumen

Proponemos NeRFiller, un enfoque que completa las porciones faltantes de una captura 3D mediante la restauración generativa 3D utilizando modelos generativos visuales 2D disponibles comercialmente. A menudo, partes de una escena u objeto capturados en 3D están incompletas debido a fallos en la reconstrucción de la malla o a la falta de observaciones (por ejemplo, regiones de contacto, como la base de los objetos, o áreas de difícil acceso). Abordamos este desafiante problema de restauración 3D aprovechando un modelo de difusión para restauración 2D. Identificamos un comportamiento sorprendente de estos modelos, donde generan restauraciones más consistentes en 3D cuando las imágenes forman una cuadrícula de 2x2, y mostramos cómo generalizar este comportamiento a más de cuatro imágenes. Luego, presentamos un marco iterativo para destilar estas regiones restauradas en una única escena 3D consistente. A diferencia de trabajos relacionados, nos enfocamos en completar escenas en lugar de eliminar objetos en primer plano, y nuestro enfoque no requiere máscaras 2D ajustadas de objetos ni texto. Comparamos nuestro enfoque con líneas base relevantes adaptadas a nuestro escenario en una variedad de escenas, donde NeRFiller crea las completaciones de escenas más consistentes y plausibles en 3D. Nuestra página del proyecto se encuentra en https://ethanweber.me/nerfiller.

English

We propose NeRFiller, an approach that completes missing portions of a 3D capture via generative 3D inpainting using off-the-shelf 2D visual generative models. Often parts of a captured 3D scene or object are missing due to mesh reconstruction failures or a lack of observations (e.g., contact regions, such as the bottom of objects, or hard-to-reach areas). We approach this challenging 3D inpainting problem by leveraging a 2D inpainting diffusion model. We identify a surprising behavior of these models, where they generate more 3D consistent inpaints when images form a 2times2 grid, and show how to generalize this behavior to more than four images. We then present an iterative framework to distill these inpainted regions into a single consistent 3D scene. In contrast to related works, we focus on completing scenes rather than deleting foreground objects, and our approach does not require tight 2D object masks or text. We compare our approach to relevant baselines adapted to our setting on a variety of scenes, where NeRFiller creates the most 3D consistent and plausible scene completions. Our project page is at https://ethanweber.me/nerfiller.

NeRFiller: Completado de escenas mediante inpainting generativo en 3D

NeRFiller: Completing Scenes via Generative 3D Inpainting

Resumen

Support