SIGNeRF: Интегрированная генерация сцен для нейронных полей излучения
SIGNeRF: Scene Integrated Generation for Neural Radiance Fields
January 3, 2024
Авторы: Jan-Niklas Dihlmann, Andreas Engelhardt, Hendrik Lensch
cs.AI
Аннотация
Достижения в области моделей диффузии изображений недавно привели к значительным улучшениям в генерации высококачественных изображений. В сочетании с нейронными полями излучения (NeRF) они открыли новые возможности в 3D-генерации. Однако большинство генеративных 3D-подходов ориентированы на объекты, и их применение для редактирования существующих фотореалистичных сцен является нетривиальной задачей. Мы предлагаем SIGNeRF — новый подход для быстрого и контролируемого редактирования сцен на основе NeRF и генерации объектов, интегрированных в сцену. Новая стратегия генеративного обновления обеспечивает 3D-согласованность в отредактированных изображениях без необходимости итеративной оптимизации. Мы обнаружили, что модели диффузии, учитывающие глубину, обладают врожденной способностью генерировать 3D-согласованные виды, запрашивая сетку изображений вместо отдельных видов. На основе этих наблюдений мы вводим многовидовой справочный лист модифицированных изображений. Наш метод обновляет коллекцию изображений согласованно на основе справочного листа и уточняет исходный NeRF с использованием нового набора сгенерированных изображений за один шаг. Используя механизм учета глубины в модели диффузии изображений, мы получаем точный контроль над пространственным расположением редактирования и обеспечиваем руководство формой через выбранную область или внешнюю сетку.
English
Advances in image diffusion models have recently led to notable improvements
in the generation of high-quality images. In combination with Neural Radiance
Fields (NeRFs), they enabled new opportunities in 3D generation. However, most
generative 3D approaches are object-centric and applying them to editing
existing photorealistic scenes is not trivial. We propose SIGNeRF, a novel
approach for fast and controllable NeRF scene editing and scene-integrated
object generation. A new generative update strategy ensures 3D consistency
across the edited images, without requiring iterative optimization. We find
that depth-conditioned diffusion models inherently possess the capability to
generate 3D consistent views by requesting a grid of images instead of single
views. Based on these insights, we introduce a multi-view reference sheet of
modified images. Our method updates an image collection consistently based on
the reference sheet and refines the original NeRF with the newly generated
image set in one go. By exploiting the depth conditioning mechanism of the
image diffusion model, we gain fine control over the spatial location of the
edit and enforce shape guidance by a selected region or an external mesh.