SIGNeRF: Geïntegreerde Scène Generatie voor Neural Radiance Fields

Samenvatting

Vooruitgang in beelddiffusiemodellen heeft recentelijk geleid tot aanzienlijke verbeteringen in het genereren van hoogwaardige beelden. In combinatie met Neural Radiance Fields (NeRFs) hebben ze nieuwe mogelijkheden geopend voor 3D-generatie. De meeste generatieve 3D-benaderingen zijn echter objectgericht en het toepassen ervan op het bewerken van bestaande fotorealistische scènes is niet triviaal. Wij stellen SIGNeRF voor, een nieuwe benadering voor snelle en controleerbare NeRF-scènebewerking en scène-geïntegreerde objectgeneratie. Een nieuwe generatieve update-strategie zorgt voor 3D-consistentie in de bewerkte beelden, zonder iteratieve optimalisatie te vereisen. Wij ontdekken dat dieptegeconditioneerde diffusiemodellen van nature de mogelijkheid hebben om 3D-consistente aanzichten te genereren door een raster van beelden aan te vragen in plaats van enkele aanzichten. Op basis van deze inzichten introduceren we een multi-view referentieblad van gewijzigde beelden. Onze methode werkt een beeldcollectie consistent bij op basis van het referentieblad en verfijnt de originele NeRF in één keer met de nieuw gegenereerde beeldset. Door gebruik te maken van het diepteconditioneringsmechanisme van het beelddiffusiemodel, krijgen we fijne controle over de ruimtelijke locatie van de bewerking en handhaven we vormbegeleiding door een geselecteerd gebied of een extern mesh.

English

Advances in image diffusion models have recently led to notable improvements in the generation of high-quality images. In combination with Neural Radiance Fields (NeRFs), they enabled new opportunities in 3D generation. However, most generative 3D approaches are object-centric and applying them to editing existing photorealistic scenes is not trivial. We propose SIGNeRF, a novel approach for fast and controllable NeRF scene editing and scene-integrated object generation. A new generative update strategy ensures 3D consistency across the edited images, without requiring iterative optimization. We find that depth-conditioned diffusion models inherently possess the capability to generate 3D consistent views by requesting a grid of images instead of single views. Based on these insights, we introduce a multi-view reference sheet of modified images. Our method updates an image collection consistently based on the reference sheet and refines the original NeRF with the newly generated image set in one go. By exploiting the depth conditioning mechanism of the image diffusion model, we gain fine control over the spatial location of the edit and enforce shape guidance by a selected region or an external mesh.

SIGNeRF: Geïntegreerde Scène Generatie voor Neural Radiance Fields

SIGNeRF: Scene Integrated Generation for Neural Radiance Fields

Samenvatting

Support