InseRF: Генеративное вставление объектов в нейронные 3D-сцены на основе текстового описания
InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes
January 10, 2024
Авторы: Mohamad Shahbazi, Liesbeth Claessens, Michael Niemeyer, Edo Collins, Alessio Tonioni, Luc Van Gool, Federico Tombari
cs.AI
Аннотация
Мы представляем InseRF — новый метод генеративного добавления объектов в реконструкции 3D-сцен на основе NeRF. Используя предоставленное пользователем текстовое описание и 2D ограничивающий прямоугольник в опорном виде, InseRF создает новые объекты в 3D-сценах. В последнее время методы редактирования 3D-сцен претерпели значительные изменения благодаря использованию сильных априорных знаний текстово-изобразительных диффузионных моделей в генеративном 3D-моделировании. Существующие методы в основном эффективны для редактирования 3D-сцен путем изменения стиля и внешнего вида или удаления существующих объектов. Однако генерация новых объектов остается сложной задачей для таких методов, которую мы решаем в данном исследовании. В частности, мы предлагаем основывать добавление 3D-объекта на добавлении 2D-объекта в опорном виде сцены. Затем 2D-изменение переносится в 3D с использованием метода реконструкции объекта по одному виду. Реконструированный объект затем вставляется в сцену, руководствуясь априорными знаниями методов оценки глубины по одному изображению. Мы оцениваем наш метод на различных 3D-сценах и проводим детальный анализ предложенных компонентов. Наши эксперименты по генеративному добавлению объектов в несколько 3D-сцен демонстрируют эффективность нашего метода по сравнению с существующими подходами. InseRF способен выполнять контролируемое и 3D-согласованное добавление объектов без необходимости явного ввода 3D-информации. Посетите нашу страницу проекта по адресу https://mohamad-shahbazi.github.io/inserf.
English
We introduce InseRF, a novel method for generative object insertion in the
NeRF reconstructions of 3D scenes. Based on a user-provided textual description
and a 2D bounding box in a reference viewpoint, InseRF generates new objects in
3D scenes. Recently, methods for 3D scene editing have been profoundly
transformed, owing to the use of strong priors of text-to-image diffusion
models in 3D generative modeling. Existing methods are mostly effective in
editing 3D scenes via style and appearance changes or removing existing
objects. Generating new objects, however, remains a challenge for such methods,
which we address in this study. Specifically, we propose grounding the 3D
object insertion to a 2D object insertion in a reference view of the scene. The
2D edit is then lifted to 3D using a single-view object reconstruction method.
The reconstructed object is then inserted into the scene, guided by the priors
of monocular depth estimation methods. We evaluate our method on various 3D
scenes and provide an in-depth analysis of the proposed components. Our
experiments with generative insertion of objects in several 3D scenes indicate
the effectiveness of our method compared to the existing methods. InseRF is
capable of controllable and 3D-consistent object insertion without requiring
explicit 3D information as input. Please visit our project page at
https://mohamad-shahbazi.github.io/inserf.