SIGNeRF: Generación Integrada de Escenas para Campos de Radiancia Neural
SIGNeRF: Scene Integrated Generation for Neural Radiance Fields
January 3, 2024
Autores: Jan-Niklas Dihlmann, Andreas Engelhardt, Hendrik Lensch
cs.AI
Resumen
Los avances en los modelos de difusión de imágenes han llevado recientemente a mejoras notables en la generación de imágenes de alta calidad. En combinación con los Campos de Radiancia Neural (NeRFs), han abierto nuevas oportunidades en la generación 3D. Sin embargo, la mayoría de los enfoques generativos 3D están centrados en objetos y aplicarlos a la edición de escenas fotorealistas existentes no es trivial. Proponemos SIGNeRF, un enfoque novedoso para la edición rápida y controlable de escenas NeRF y la generación de objetos integrados en la escena. Una nueva estrategia de actualización generativa asegura la consistencia 3D en las imágenes editadas, sin requerir optimización iterativa. Descubrimos que los modelos de difusión condicionados por profundidad poseen inherentemente la capacidad de generar vistas 3D consistentes al solicitar una cuadrícula de imágenes en lugar de vistas individuales. Basándonos en estas ideas, introducimos una hoja de referencia multi-vista de imágenes modificadas. Nuestro método actualiza una colección de imágenes de manera consistente basándose en la hoja de referencia y refina el NeRF original con el nuevo conjunto de imágenes generadas de una sola vez. Al explotar el mecanismo de condicionamiento por profundidad del modelo de difusión de imágenes, obtenemos un control preciso sobre la ubicación espacial de la edición y aplicamos guías de forma mediante una región seleccionada o una malla externa.
English
Advances in image diffusion models have recently led to notable improvements
in the generation of high-quality images. In combination with Neural Radiance
Fields (NeRFs), they enabled new opportunities in 3D generation. However, most
generative 3D approaches are object-centric and applying them to editing
existing photorealistic scenes is not trivial. We propose SIGNeRF, a novel
approach for fast and controllable NeRF scene editing and scene-integrated
object generation. A new generative update strategy ensures 3D consistency
across the edited images, without requiring iterative optimization. We find
that depth-conditioned diffusion models inherently possess the capability to
generate 3D consistent views by requesting a grid of images instead of single
views. Based on these insights, we introduce a multi-view reference sheet of
modified images. Our method updates an image collection consistently based on
the reference sheet and refines the original NeRF with the newly generated
image set in one go. By exploiting the depth conditioning mechanism of the
image diffusion model, we gain fine control over the spatial location of the
edit and enforce shape guidance by a selected region or an external mesh.