SIGNeRF : Génération intégrée de scènes pour les champs de rayonnement neuronaux
SIGNeRF: Scene Integrated Generation for Neural Radiance Fields
January 3, 2024
Auteurs: Jan-Niklas Dihlmann, Andreas Engelhardt, Hendrik Lensch
cs.AI
Résumé
Les progrès récents des modèles de diffusion d'images ont conduit à des améliorations notables dans la génération d'images de haute qualité. Combinés aux champs de radiance neuronaux (NeRFs), ils ont ouvert de nouvelles opportunités dans la génération 3D. Cependant, la plupart des approches génératives 3D sont centrées sur des objets, et leur application à l'édition de scènes photoréalistes existantes n'est pas triviale. Nous proposons SIGNeRF, une nouvelle approche pour l'édition rapide et contrôlée de scènes NeRF et la génération d'objets intégrés à la scène. Une nouvelle stratégie de mise à jour générative assure la cohérence 3D à travers les images éditées, sans nécessiter d'optimisation itérative. Nous constatons que les modèles de diffusion conditionnés par la profondeur possèdent intrinsèquement la capacité de générer des vues 3D cohérentes en demandant une grille d'images plutôt que des vues uniques. Sur la base de ces observations, nous introduisons une feuille de référence multi-vues d'images modifiées. Notre méthode met à jour une collection d'images de manière cohérente en se basant sur la feuille de référence et affine le NeRF original avec le nouvel ensemble d'images généré en une seule étape. En exploitant le mécanisme de conditionnement par la profondeur du modèle de diffusion d'images, nous obtenons un contrôle précis sur l'emplacement spatial de l'édition et imposons un guidage de forme par une région sélectionnée ou un maillage externe.
English
Advances in image diffusion models have recently led to notable improvements
in the generation of high-quality images. In combination with Neural Radiance
Fields (NeRFs), they enabled new opportunities in 3D generation. However, most
generative 3D approaches are object-centric and applying them to editing
existing photorealistic scenes is not trivial. We propose SIGNeRF, a novel
approach for fast and controllable NeRF scene editing and scene-integrated
object generation. A new generative update strategy ensures 3D consistency
across the edited images, without requiring iterative optimization. We find
that depth-conditioned diffusion models inherently possess the capability to
generate 3D consistent views by requesting a grid of images instead of single
views. Based on these insights, we introduce a multi-view reference sheet of
modified images. Our method updates an image collection consistently based on
the reference sheet and refines the original NeRF with the newly generated
image set in one go. By exploiting the depth conditioning mechanism of the
image diffusion model, we gain fine control over the spatial location of the
edit and enforce shape guidance by a selected region or an external mesh.