Настройте свой NeRF: Адаптивное редактирование 3D-сцен на основе исходных данных с помощью локально-глобального итеративного обучения

Аннотация

В данной работе мы решаем задачу адаптивного редактирования 3D-сцен на основе исходных данных, предлагая модель CustomNeRF, которая объединяет текстовое описание или эталонное изображение в качестве подсказки для редактирования. Однако получение желаемых результатов редактирования, соответствующих подсказке, является нетривиальной задачей из-за двух значительных проблем: точного редактирования только областей переднего плана и обеспечения согласованности между несколькими видами при наличии эталонного изображения с одного ракурса. Для решения первой проблемы мы предлагаем схему обучения Local-Global Iterative Editing (LGIE), которая чередует редактирование областей переднего плана и полного изображения, направленное на манипуляции только с передним планом при сохранении фона. Для второй проблемы мы также разрабатываем регуляризацию, основанную на классах, которая использует априорные знания о классах внутри модели генерации для смягчения проблемы несогласованности между различными видами при редактировании на основе изображений. Многочисленные эксперименты показывают, что наша модель CustomNeRF обеспечивает точные результаты редактирования в различных реальных сценах как для текстовых, так и для изображений-подсказок.

English

In this paper, we target the adaptive source driven 3D scene editing task by proposing a CustomNeRF model that unifies a text description or a reference image as the editing prompt. However, obtaining desired editing results conformed with the editing prompt is nontrivial since there exist two significant challenges, including accurate editing of only foreground regions and multi-view consistency given a single-view reference image. To tackle the first challenge, we propose a Local-Global Iterative Editing (LGIE) training scheme that alternates between foreground region editing and full-image editing, aimed at foreground-only manipulation while preserving the background. For the second challenge, we also design a class-guided regularization that exploits class priors within the generation model to alleviate the inconsistency problem among different views in image-driven editing. Extensive experiments show that our CustomNeRF produces precise editing results under various real scenes for both text- and image-driven settings.

Настройте свой NeRF: Адаптивное редактирование 3D-сцен на основе исходных данных с помощью локально-глобального итеративного обучения

Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global Iterative Training

Аннотация

Support