Настройте свой NeRF: Адаптивное редактирование 3D-сцен на основе исходных данных с помощью локально-глобального итеративного обучения
Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global Iterative Training
December 4, 2023
Авторы: Runze He, Shaofei Huang, Xuecheng Nie, Tianrui Hui, Luoqi Liu, Jiao Dai, Jizhong Han, Guanbin Li, Si Liu
cs.AI
Аннотация
В данной работе мы решаем задачу адаптивного редактирования 3D-сцен на основе исходных данных, предлагая модель CustomNeRF, которая объединяет текстовое описание или эталонное изображение в качестве подсказки для редактирования. Однако получение желаемых результатов редактирования, соответствующих подсказке, является нетривиальной задачей из-за двух значительных проблем: точного редактирования только областей переднего плана и обеспечения согласованности между несколькими видами при наличии эталонного изображения с одного ракурса. Для решения первой проблемы мы предлагаем схему обучения Local-Global Iterative Editing (LGIE), которая чередует редактирование областей переднего плана и полного изображения, направленное на манипуляции только с передним планом при сохранении фона. Для второй проблемы мы также разрабатываем регуляризацию, основанную на классах, которая использует априорные знания о классах внутри модели генерации для смягчения проблемы несогласованности между различными видами при редактировании на основе изображений. Многочисленные эксперименты показывают, что наша модель CustomNeRF обеспечивает точные результаты редактирования в различных реальных сценах как для текстовых, так и для изображений-подсказок.
English
In this paper, we target the adaptive source driven 3D scene editing task by
proposing a CustomNeRF model that unifies a text description or a reference
image as the editing prompt. However, obtaining desired editing results
conformed with the editing prompt is nontrivial since there exist two
significant challenges, including accurate editing of only foreground regions
and multi-view consistency given a single-view reference image. To tackle the
first challenge, we propose a Local-Global Iterative Editing (LGIE) training
scheme that alternates between foreground region editing and full-image
editing, aimed at foreground-only manipulation while preserving the background.
For the second challenge, we also design a class-guided regularization that
exploits class priors within the generation model to alleviate the
inconsistency problem among different views in image-driven editing. Extensive
experiments show that our CustomNeRF produces precise editing results under
various real scenes for both text- and image-driven settings.