InseRF: Inserção Generativa de Objetos Orientada por Texto em Cenas Neurais 3D

Resumo

Apresentamos o InseRF, um método inovador para inserção generativa de objetos em reconstruções NeRF de cenas 3D. Com base em uma descrição textual fornecida pelo usuário e em uma caixa delimitadora 2D em um ponto de vista de referência, o InseRF gera novos objetos em cenas 3D. Recentemente, os métodos para edição de cenas 3D foram profundamente transformados, graças ao uso de fortes priors de modelos de difusão texto-para-imagem na modelagem generativa 3D. Os métodos existentes são principalmente eficazes na edição de cenas 3D por meio de mudanças de estilo e aparência ou na remoção de objetos existentes. No entanto, a geração de novos objetos continua sendo um desafio para tais métodos, que abordamos neste estudo. Especificamente, propomos ancorar a inserção de objetos 3D a uma inserção de objetos 2D em uma visão de referência da cena. A edição 2D é então elevada para 3D usando um método de reconstrução de objetos de visão única. O objeto reconstruído é então inserido na cena, guiado pelos priors de métodos de estimativa de profundidade monoculares. Avaliamos nosso método em várias cenas 3D e fornecemos uma análise detalhada dos componentes propostos. Nossos experimentos com a inserção generativa de objetos em várias cenas 3D indicam a eficácia do nosso método em comparação com os métodos existentes. O InseRF é capaz de realizar inserções de objetos controláveis e consistentes em 3D sem exigir informações 3D explícitas como entrada. Visite nossa página do projeto em https://mohamad-shahbazi.github.io/inserf.

English

We introduce InseRF, a novel method for generative object insertion in the NeRF reconstructions of 3D scenes. Based on a user-provided textual description and a 2D bounding box in a reference viewpoint, InseRF generates new objects in 3D scenes. Recently, methods for 3D scene editing have been profoundly transformed, owing to the use of strong priors of text-to-image diffusion models in 3D generative modeling. Existing methods are mostly effective in editing 3D scenes via style and appearance changes or removing existing objects. Generating new objects, however, remains a challenge for such methods, which we address in this study. Specifically, we propose grounding the 3D object insertion to a 2D object insertion in a reference view of the scene. The 2D edit is then lifted to 3D using a single-view object reconstruction method. The reconstructed object is then inserted into the scene, guided by the priors of monocular depth estimation methods. We evaluate our method on various 3D scenes and provide an in-depth analysis of the proposed components. Our experiments with generative insertion of objects in several 3D scenes indicate the effectiveness of our method compared to the existing methods. InseRF is capable of controllable and 3D-consistent object insertion without requiring explicit 3D information as input. Please visit our project page at https://mohamad-shahbazi.github.io/inserf.

InseRF: Inserção Generativa de Objetos Orientada por Texto em Cenas Neurais 3D

InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes

Resumo

Support