SIGNeRF: Geração Integrada de Cenas para Campos de Radiação Neural
SIGNeRF: Scene Integrated Generation for Neural Radiance Fields
January 3, 2024
Autores: Jan-Niklas Dihlmann, Andreas Engelhardt, Hendrik Lensch
cs.AI
Resumo
Avanços recentes em modelos de difusão de imagens levaram a melhorias notáveis na geração de imagens de alta qualidade. Em combinação com Campos de Radiação Neural (NeRFs), eles abriram novas oportunidades na geração 3D. No entanto, a maioria das abordagens generativas 3D é centrada em objetos, e aplicá-las à edição de cenas fotorealísticas existentes não é trivial. Propomos o SIGNeRF, uma nova abordagem para edição rápida e controlável de cenas NeRF e geração de objetos integrados à cena. Uma nova estratégia de atualização generativa garante consistência 3D entre as imagens editadas, sem a necessidade de otimização iterativa. Descobrimos que modelos de difusão condicionados por profundidade possuem, inerentemente, a capacidade de gerar visões 3D consistentes ao solicitar uma grade de imagens em vez de visões únicas. Com base nessas descobertas, introduzimos uma folha de referência de múltiplas visões com imagens modificadas. Nosso método atualiza uma coleção de imagens de forma consistente com base na folha de referência e refina o NeRF original com o novo conjunto de imagens geradas de uma só vez. Ao explorar o mecanismo de condicionamento por profundidade do modelo de difusão de imagens, obtemos controle refinado sobre a localização espacial da edição e aplicamos orientação de forma por meio de uma região selecionada ou de uma malha externa.
English
Advances in image diffusion models have recently led to notable improvements
in the generation of high-quality images. In combination with Neural Radiance
Fields (NeRFs), they enabled new opportunities in 3D generation. However, most
generative 3D approaches are object-centric and applying them to editing
existing photorealistic scenes is not trivial. We propose SIGNeRF, a novel
approach for fast and controllable NeRF scene editing and scene-integrated
object generation. A new generative update strategy ensures 3D consistency
across the edited images, without requiring iterative optimization. We find
that depth-conditioned diffusion models inherently possess the capability to
generate 3D consistent views by requesting a grid of images instead of single
views. Based on these insights, we introduce a multi-view reference sheet of
modified images. Our method updates an image collection consistently based on
the reference sheet and refines the original NeRF with the newly generated
image set in one go. By exploiting the depth conditioning mechanism of the
image diffusion model, we gain fine control over the spatial location of the
edit and enforce shape guidance by a selected region or an external mesh.