InseRF: Tekstgestuurde generatieve objectinvoeging in neurale 3D-scènes
InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes
January 10, 2024
Auteurs: Mohamad Shahbazi, Liesbeth Claessens, Michael Niemeyer, Edo Collins, Alessio Tonioni, Luc Van Gool, Federico Tombari
cs.AI
Samenvatting
We introduceren InseRF, een nieuwe methode voor het generatief invoegen van objecten in NeRF-reconstructies van 3D-scènes. Op basis van een door de gebruiker verstrekte tekstuele beschrijving en een 2D-afbakeningskader in een referentiebeeld, genereert InseRF nieuwe objecten in 3D-scènes. Recentelijk zijn methoden voor het bewerken van 3D-scènes ingrijpend getransformeerd, dankzij het gebruik van sterke aannames van tekst-naar-beeld diffusiemodellen in 3D-generatieve modellering. Bestaande methoden zijn vooral effectief in het bewerken van 3D-scènes via stijl- en uiterlijkveranderingen of het verwijderen van bestaande objecten. Het genereren van nieuwe objecten blijft echter een uitdaging voor dergelijke methoden, wat wij in deze studie aanpakken. Specifiek stellen we voor om het invoegen van 3D-objecten te verankeren aan een 2D-objectinvoeging in een referentiebeeld van de scène. De 2D-bewerking wordt vervolgens omgezet naar 3D met behulp van een methode voor enkelvoudige beeldreconstructie van objecten. Het gereconstrueerde object wordt vervolgens ingevoegd in de scène, geleid door de aannames van monoculaire diepteschattingsmethoden. We evalueren onze methode op diverse 3D-scènes en bieden een diepgaande analyse van de voorgestelde componenten. Onze experimenten met het generatief invoegen van objecten in verschillende 3D-scènes tonen de effectiviteit van onze methode in vergelijking met bestaande methoden. InseRF is in staat tot controleerbare en 3D-consistente objectinvoeging zonder expliciete 3D-informatie als invoer te vereisen. Bezoek onze projectpagina op https://mohamad-shahbazi.github.io/inserf.
English
We introduce InseRF, a novel method for generative object insertion in the
NeRF reconstructions of 3D scenes. Based on a user-provided textual description
and a 2D bounding box in a reference viewpoint, InseRF generates new objects in
3D scenes. Recently, methods for 3D scene editing have been profoundly
transformed, owing to the use of strong priors of text-to-image diffusion
models in 3D generative modeling. Existing methods are mostly effective in
editing 3D scenes via style and appearance changes or removing existing
objects. Generating new objects, however, remains a challenge for such methods,
which we address in this study. Specifically, we propose grounding the 3D
object insertion to a 2D object insertion in a reference view of the scene. The
2D edit is then lifted to 3D using a single-view object reconstruction method.
The reconstructed object is then inserted into the scene, guided by the priors
of monocular depth estimation methods. We evaluate our method on various 3D
scenes and provide an in-depth analysis of the proposed components. Our
experiments with generative insertion of objects in several 3D scenes indicate
the effectiveness of our method compared to the existing methods. InseRF is
capable of controllable and 3D-consistent object insertion without requiring
explicit 3D information as input. Please visit our project page at
https://mohamad-shahbazi.github.io/inserf.