SIGNeRF: Geïntegreerde Scène Generatie voor Neural Radiance Fields
SIGNeRF: Scene Integrated Generation for Neural Radiance Fields
January 3, 2024
Auteurs: Jan-Niklas Dihlmann, Andreas Engelhardt, Hendrik Lensch
cs.AI
Samenvatting
Vooruitgang in beelddiffusiemodellen heeft recentelijk geleid tot aanzienlijke verbeteringen in het genereren van hoogwaardige beelden. In combinatie met Neural Radiance Fields (NeRFs) hebben ze nieuwe mogelijkheden geopend voor 3D-generatie. De meeste generatieve 3D-benaderingen zijn echter objectgericht en het toepassen ervan op het bewerken van bestaande fotorealistische scènes is niet triviaal. Wij stellen SIGNeRF voor, een nieuwe benadering voor snelle en controleerbare NeRF-scènebewerking en scène-geïntegreerde objectgeneratie. Een nieuwe generatieve update-strategie zorgt voor 3D-consistentie in de bewerkte beelden, zonder iteratieve optimalisatie te vereisen. Wij ontdekken dat dieptegeconditioneerde diffusiemodellen van nature de mogelijkheid hebben om 3D-consistente aanzichten te genereren door een raster van beelden aan te vragen in plaats van enkele aanzichten. Op basis van deze inzichten introduceren we een multi-view referentieblad van gewijzigde beelden. Onze methode werkt een beeldcollectie consistent bij op basis van het referentieblad en verfijnt de originele NeRF in één keer met de nieuw gegenereerde beeldset. Door gebruik te maken van het diepteconditioneringsmechanisme van het beelddiffusiemodel, krijgen we fijne controle over de ruimtelijke locatie van de bewerking en handhaven we vormbegeleiding door een geselecteerd gebied of een extern mesh.
English
Advances in image diffusion models have recently led to notable improvements
in the generation of high-quality images. In combination with Neural Radiance
Fields (NeRFs), they enabled new opportunities in 3D generation. However, most
generative 3D approaches are object-centric and applying them to editing
existing photorealistic scenes is not trivial. We propose SIGNeRF, a novel
approach for fast and controllable NeRF scene editing and scene-integrated
object generation. A new generative update strategy ensures 3D consistency
across the edited images, without requiring iterative optimization. We find
that depth-conditioned diffusion models inherently possess the capability to
generate 3D consistent views by requesting a grid of images instead of single
views. Based on these insights, we introduce a multi-view reference sheet of
modified images. Our method updates an image collection consistently based on
the reference sheet and refines the original NeRF with the newly generated
image set in one go. By exploiting the depth conditioning mechanism of the
image diffusion model, we gain fine control over the spatial location of the
edit and enforce shape guidance by a selected region or an external mesh.