ChatPaper.aiChatPaper

NeRFiller : Complétion de scènes par inpainting génératif 3D

NeRFiller: Completing Scenes via Generative 3D Inpainting

December 7, 2023
Auteurs: Ethan Weber, Aleksander Hołyński, Varun Jampani, Saurabh Saxena, Noah Snavely, Abhishek Kar, Angjoo Kanazawa
cs.AI

Résumé

Nous proposons NeRFiller, une approche qui complète les parties manquantes d'une capture 3D via un inpainting génératif 3D en utilisant des modèles génératifs visuels 2D disponibles sur étagère. Souvent, certaines parties d'une scène ou d'un objet 3D capturé sont manquantes en raison d'échecs de reconstruction de maillage ou d'un manque d'observations (par exemple, les régions de contact, comme le dessous des objets, ou les zones difficiles d'accès). Nous abordons ce problème complexe d'inpainting 3D en exploitant un modèle de diffusion d'inpainting 2D. Nous identifions un comportement surprenant de ces modèles, où ils génèrent des inpaintings plus cohérents en 3D lorsque les images forment une grille 2x2, et montrons comment généraliser ce comportement à plus de quatre images. Nous présentons ensuite un cadre itératif pour distiller ces régions inpaintées en une scène 3D unique et cohérente. Contrairement aux travaux connexes, nous nous concentrons sur la complétion de scènes plutôt que sur la suppression d'objets au premier plan, et notre approche ne nécessite pas de masques 2D serrés d'objets ou de texte. Nous comparons notre approche à des bases de référence pertinentes adaptées à notre contexte sur une variété de scènes, où NeRFiller crée les complétions de scènes les plus cohérentes et plausibles en 3D. Notre page de projet est disponible à l'adresse https://ethanweber.me/nerfiller.
English
We propose NeRFiller, an approach that completes missing portions of a 3D capture via generative 3D inpainting using off-the-shelf 2D visual generative models. Often parts of a captured 3D scene or object are missing due to mesh reconstruction failures or a lack of observations (e.g., contact regions, such as the bottom of objects, or hard-to-reach areas). We approach this challenging 3D inpainting problem by leveraging a 2D inpainting diffusion model. We identify a surprising behavior of these models, where they generate more 3D consistent inpaints when images form a 2times2 grid, and show how to generalize this behavior to more than four images. We then present an iterative framework to distill these inpainted regions into a single consistent 3D scene. In contrast to related works, we focus on completing scenes rather than deleting foreground objects, and our approach does not require tight 2D object masks or text. We compare our approach to relevant baselines adapted to our setting on a variety of scenes, where NeRFiller creates the most 3D consistent and plausible scene completions. Our project page is at https://ethanweber.me/nerfiller.
PDF120December 15, 2024