SIGNeRF: Integrierte Szenengenerierung für neuronale Strahlungsfelder
SIGNeRF: Scene Integrated Generation for Neural Radiance Fields
January 3, 2024
Autoren: Jan-Niklas Dihlmann, Andreas Engelhardt, Hendrik Lensch
cs.AI
Zusammenfassung
Fortschritte bei Bilddiffusionsmodellen haben in letzter Zeit zu bemerkenswerten Verbesserungen bei der Erzeugung hochwertiger Bilder geführt. In Kombination mit Neural Radiance Fields (NeRFs) haben sie neue Möglichkeiten in der 3D-Generierung eröffnet. Die meisten generativen 3D-Ansätze sind jedoch objektzentriert, und ihre Anwendung auf die Bearbeitung bestehender fotorealistischer Szenen ist nicht trivial. Wir schlagen SIGNeRF vor, einen neuartigen Ansatz für schnelle und kontrollierbare NeRF-Szenenbearbeitung und szenenintegrierte Objektgenerierung. Eine neue generative Aktualisierungsstrategie gewährleistet 3D-Konsistenz über die bearbeiteten Bilder hinweg, ohne iterative Optimierung zu erfordern. Wir stellen fest, dass tiefenkonditionierte Diffusionsmodelle inhärent die Fähigkeit besitzen, 3D-konsistente Ansichten zu erzeugen, indem sie ein Raster von Bildern anstelle einzelner Ansichten anfordern. Basierend auf diesen Erkenntnissen führen wir ein Multi-View-Referenzblatt modifizierter Bilder ein. Unsere Methode aktualisiert eine Bildersammlung konsistent basierend auf dem Referenzblatt und verfeinert das ursprüngliche NeRF mit dem neu generierten Bildersatz in einem Schritt. Durch die Nutzung des Tiefenkonditionierungsmechanismus des Bilddiffusionsmodells erlangen wir eine feine Kontrolle über den räumlichen Ort der Bearbeitung und erzwingen eine Formführung durch eine ausgewählte Region oder ein externes Mesh.
English
Advances in image diffusion models have recently led to notable improvements
in the generation of high-quality images. In combination with Neural Radiance
Fields (NeRFs), they enabled new opportunities in 3D generation. However, most
generative 3D approaches are object-centric and applying them to editing
existing photorealistic scenes is not trivial. We propose SIGNeRF, a novel
approach for fast and controllable NeRF scene editing and scene-integrated
object generation. A new generative update strategy ensures 3D consistency
across the edited images, without requiring iterative optimization. We find
that depth-conditioned diffusion models inherently possess the capability to
generate 3D consistent views by requesting a grid of images instead of single
views. Based on these insights, we introduce a multi-view reference sheet of
modified images. Our method updates an image collection consistently based on
the reference sheet and refines the original NeRF with the newly generated
image set in one go. By exploiting the depth conditioning mechanism of the
image diffusion model, we gain fine control over the spatial location of the
edit and enforce shape guidance by a selected region or an external mesh.