InseRF: Inserção Generativa de Objetos Orientada por Texto em Cenas Neurais 3D
InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes
January 10, 2024
Autores: Mohamad Shahbazi, Liesbeth Claessens, Michael Niemeyer, Edo Collins, Alessio Tonioni, Luc Van Gool, Federico Tombari
cs.AI
Resumo
Apresentamos o InseRF, um método inovador para inserção generativa de objetos em reconstruções NeRF de cenas 3D. Com base em uma descrição textual fornecida pelo usuário e em uma caixa delimitadora 2D em um ponto de vista de referência, o InseRF gera novos objetos em cenas 3D. Recentemente, os métodos para edição de cenas 3D foram profundamente transformados, graças ao uso de fortes priors de modelos de difusão texto-para-imagem na modelagem generativa 3D. Os métodos existentes são principalmente eficazes na edição de cenas 3D por meio de mudanças de estilo e aparência ou na remoção de objetos existentes. No entanto, a geração de novos objetos continua sendo um desafio para tais métodos, que abordamos neste estudo. Especificamente, propomos ancorar a inserção de objetos 3D a uma inserção de objetos 2D em uma visão de referência da cena. A edição 2D é então elevada para 3D usando um método de reconstrução de objetos de visão única. O objeto reconstruído é então inserido na cena, guiado pelos priors de métodos de estimativa de profundidade monoculares. Avaliamos nosso método em várias cenas 3D e fornecemos uma análise detalhada dos componentes propostos. Nossos experimentos com a inserção generativa de objetos em várias cenas 3D indicam a eficácia do nosso método em comparação com os métodos existentes. O InseRF é capaz de realizar inserções de objetos controláveis e consistentes em 3D sem exigir informações 3D explícitas como entrada. Visite nossa página do projeto em https://mohamad-shahbazi.github.io/inserf.
English
We introduce InseRF, a novel method for generative object insertion in the
NeRF reconstructions of 3D scenes. Based on a user-provided textual description
and a 2D bounding box in a reference viewpoint, InseRF generates new objects in
3D scenes. Recently, methods for 3D scene editing have been profoundly
transformed, owing to the use of strong priors of text-to-image diffusion
models in 3D generative modeling. Existing methods are mostly effective in
editing 3D scenes via style and appearance changes or removing existing
objects. Generating new objects, however, remains a challenge for such methods,
which we address in this study. Specifically, we propose grounding the 3D
object insertion to a 2D object insertion in a reference view of the scene. The
2D edit is then lifted to 3D using a single-view object reconstruction method.
The reconstructed object is then inserted into the scene, guided by the priors
of monocular depth estimation methods. We evaluate our method on various 3D
scenes and provide an in-depth analysis of the proposed components. Our
experiments with generative insertion of objects in several 3D scenes indicate
the effectiveness of our method compared to the existing methods. InseRF is
capable of controllable and 3D-consistent object insertion without requiring
explicit 3D information as input. Please visit our project page at
https://mohamad-shahbazi.github.io/inserf.