NeRFiller: Vervollständigung von Szenen durch generative 3D-Inpainting
NeRFiller: Completing Scenes via Generative 3D Inpainting
December 7, 2023
Autoren: Ethan Weber, Aleksander Hołyński, Varun Jampani, Saurabh Saxena, Noah Snavely, Abhishek Kar, Angjoo Kanazawa
cs.AI
Zusammenfassung
Wir stellen NeRFiller vor, einen Ansatz, der fehlende Teile einer 3D-Aufnahme durch generative 3D-Inpainting unter Verwendung von Standard-2D-visuellen Generativmodellen vervollständigt. Oft sind Teile einer erfassten 3D-Szene oder eines Objekts aufgrund von Mesh-Rekonstruktionsfehlern oder fehlenden Beobachtungen (z. B. Kontaktbereiche wie die Unterseite von Objekten oder schwer zugängliche Bereiche) unvollständig. Wir gehen dieses anspruchsvolle 3D-Inpainting-Problem an, indem wir ein 2D-Inpainting-Diffusionsmodell nutzen. Wir identifizieren ein überraschendes Verhalten dieser Modelle, bei dem sie 3D-konsistentere Inpaintings erzeugen, wenn Bilder in einem 2x2-Raster angeordnet sind, und zeigen, wie dieses Verhalten auf mehr als vier Bilder verallgemeinert werden kann. Anschließend präsentieren wir ein iteratives Framework, um diese inpainting-Bereiche in eine einzige konsistente 3D-Szene zu destillieren. Im Gegensatz zu verwandten Arbeiten konzentrieren wir uns auf die Vervollständigung von Szenen anstatt auf das Entfernen von Vordergrundobjekten, und unser Ansatz erfordert keine präzisen 2D-Objektmasken oder Text. Wir vergleichen unseren Ansatz mit relevanten Baselines, die an unsere Einstellung angepasst sind, auf einer Vielzahl von Szenen, wobei NeRFiller die 3D-konsistentesten und plausibelsten Szenenvervollständigungen erzeugt. Unsere Projektseite befindet sich unter https://ethanweber.me/nerfiller.
English
We propose NeRFiller, an approach that completes missing portions of a 3D
capture via generative 3D inpainting using off-the-shelf 2D visual generative
models. Often parts of a captured 3D scene or object are missing due to mesh
reconstruction failures or a lack of observations (e.g., contact regions, such
as the bottom of objects, or hard-to-reach areas). We approach this challenging
3D inpainting problem by leveraging a 2D inpainting diffusion model. We
identify a surprising behavior of these models, where they generate more 3D
consistent inpaints when images form a 2times2 grid, and show how to
generalize this behavior to more than four images. We then present an iterative
framework to distill these inpainted regions into a single consistent 3D scene.
In contrast to related works, we focus on completing scenes rather than
deleting foreground objects, and our approach does not require tight 2D object
masks or text. We compare our approach to relevant baselines adapted to our
setting on a variety of scenes, where NeRFiller creates the most 3D consistent
and plausible scene completions. Our project page is at
https://ethanweber.me/nerfiller.