SIGNeRF: Generazione Integrata di Scene per Campi di Radianza Neurale
SIGNeRF: Scene Integrated Generation for Neural Radiance Fields
January 3, 2024
Autori: Jan-Niklas Dihlmann, Andreas Engelhardt, Hendrik Lensch
cs.AI
Abstract
I recenti progressi nei modelli di diffusione di immagini hanno portato a notevoli miglioramenti nella generazione di immagini di alta qualità. In combinazione con i Neural Radiance Fields (NeRF), hanno aperto nuove opportunità nella generazione 3D. Tuttavia, la maggior parte degli approcci generativi 3D è centrata sugli oggetti, e applicarli alla modifica di scene fotorealistiche esistenti non è banale. Proponiamo SIGNeRF, un nuovo approccio per la modifica rapida e controllabile di scene NeRF e la generazione di oggetti integrati nella scena. Una nuova strategia di aggiornamento generativo garantisce la coerenza 3D tra le immagini modificate, senza richiedere un'ottimizzazione iterativa. Abbiamo scoperto che i modelli di diffusione condizionati alla profondità possiedono intrinsecamente la capacità di generare viste 3D coerenti richiedendo una griglia di immagini invece di singole viste. Sulla base di queste intuizioni, introduciamo un foglio di riferimento multi-vista di immagini modificate. Il nostro metodo aggiorna una raccolta di immagini in modo coerente basandosi sul foglio di riferimento e perfeziona il NeRF originale con il nuovo set di immagini generato in un'unica operazione. Sfruttando il meccanismo di condizionamento alla profondità del modello di diffusione di immagini, otteniamo un controllo fine sulla posizione spaziale della modifica e imponiamo una guida alla forma attraverso una regione selezionata o una mesh esterna.
English
Advances in image diffusion models have recently led to notable improvements
in the generation of high-quality images. In combination with Neural Radiance
Fields (NeRFs), they enabled new opportunities in 3D generation. However, most
generative 3D approaches are object-centric and applying them to editing
existing photorealistic scenes is not trivial. We propose SIGNeRF, a novel
approach for fast and controllable NeRF scene editing and scene-integrated
object generation. A new generative update strategy ensures 3D consistency
across the edited images, without requiring iterative optimization. We find
that depth-conditioned diffusion models inherently possess the capability to
generate 3D consistent views by requesting a grid of images instead of single
views. Based on these insights, we introduce a multi-view reference sheet of
modified images. Our method updates an image collection consistently based on
the reference sheet and refines the original NeRF with the newly generated
image set in one go. By exploiting the depth conditioning mechanism of the
image diffusion model, we gain fine control over the spatial location of the
edit and enforce shape guidance by a selected region or an external mesh.