NeRFiller: Completado de escenas mediante inpainting generativo en 3D
NeRFiller: Completing Scenes via Generative 3D Inpainting
December 7, 2023
Autores: Ethan Weber, Aleksander Hołyński, Varun Jampani, Saurabh Saxena, Noah Snavely, Abhishek Kar, Angjoo Kanazawa
cs.AI
Resumen
Proponemos NeRFiller, un enfoque que completa las porciones faltantes de una captura 3D mediante la restauración generativa 3D utilizando modelos generativos visuales 2D disponibles comercialmente. A menudo, partes de una escena u objeto capturados en 3D están incompletas debido a fallos en la reconstrucción de la malla o a la falta de observaciones (por ejemplo, regiones de contacto, como la base de los objetos, o áreas de difícil acceso). Abordamos este desafiante problema de restauración 3D aprovechando un modelo de difusión para restauración 2D. Identificamos un comportamiento sorprendente de estos modelos, donde generan restauraciones más consistentes en 3D cuando las imágenes forman una cuadrícula de 2x2, y mostramos cómo generalizar este comportamiento a más de cuatro imágenes. Luego, presentamos un marco iterativo para destilar estas regiones restauradas en una única escena 3D consistente. A diferencia de trabajos relacionados, nos enfocamos en completar escenas en lugar de eliminar objetos en primer plano, y nuestro enfoque no requiere máscaras 2D ajustadas de objetos ni texto. Comparamos nuestro enfoque con líneas base relevantes adaptadas a nuestro escenario en una variedad de escenas, donde NeRFiller crea las completaciones de escenas más consistentes y plausibles en 3D. Nuestra página del proyecto se encuentra en https://ethanweber.me/nerfiller.
English
We propose NeRFiller, an approach that completes missing portions of a 3D
capture via generative 3D inpainting using off-the-shelf 2D visual generative
models. Often parts of a captured 3D scene or object are missing due to mesh
reconstruction failures or a lack of observations (e.g., contact regions, such
as the bottom of objects, or hard-to-reach areas). We approach this challenging
3D inpainting problem by leveraging a 2D inpainting diffusion model. We
identify a surprising behavior of these models, where they generate more 3D
consistent inpaints when images form a 2times2 grid, and show how to
generalize this behavior to more than four images. We then present an iterative
framework to distill these inpainted regions into a single consistent 3D scene.
In contrast to related works, we focus on completing scenes rather than
deleting foreground objects, and our approach does not require tight 2D object
masks or text. We compare our approach to relevant baselines adapted to our
setting on a variety of scenes, where NeRFiller creates the most 3D consistent
and plausible scene completions. Our project page is at
https://ethanweber.me/nerfiller.