InseRF: Inserzione Generativa di Oggetti Guidata da Testo in Scene Neurali 3D

Abstract

Presentiamo InseRF, un metodo innovativo per l'inserimento generativo di oggetti nelle ricostruzioni NeRF di scene 3D. Basandosi su una descrizione testuale fornita dall'utente e su un riquadro di delimitazione 2D in un punto di vista di riferimento, InseRF genera nuovi oggetti nelle scene 3D. Recentemente, i metodi per la modifica di scene 3D sono stati profondamente trasformati grazie all'uso di forti prior dei modelli di diffusione testo-immagine nella modellazione generativa 3D. I metodi esistenti sono principalmente efficaci nella modifica di scene 3D attraverso cambiamenti di stile e aspetto o nella rimozione di oggetti esistenti. La generazione di nuovi oggetti, tuttavia, rimane una sfida per tali metodi, che affrontiamo in questo studio. Nello specifico, proponiamo di ancorare l'inserimento 3D di oggetti a un inserimento 2D in una vista di riferimento della scena. La modifica 2D viene poi estesa al 3D utilizzando un metodo di ricostruzione di oggetti a vista singola. L'oggetto ricostruito viene quindi inserito nella scena, guidato dai prior dei metodi di stima della profondità monoculare. Valutiamo il nostro metodo su varie scene 3D e forniamo un'analisi approfondita dei componenti proposti. I nostri esperimenti con l'inserimento generativo di oggetti in diverse scene 3D indicano l'efficacia del nostro metodo rispetto a quelli esistenti. InseRF è in grado di eseguire un inserimento di oggetti controllabile e coerente in 3D senza richiedere informazioni 3D esplicite come input. Visita la nostra pagina del progetto all'indirizzo https://mohamad-shahbazi.github.io/inserf.

English

We introduce InseRF, a novel method for generative object insertion in the NeRF reconstructions of 3D scenes. Based on a user-provided textual description and a 2D bounding box in a reference viewpoint, InseRF generates new objects in 3D scenes. Recently, methods for 3D scene editing have been profoundly transformed, owing to the use of strong priors of text-to-image diffusion models in 3D generative modeling. Existing methods are mostly effective in editing 3D scenes via style and appearance changes or removing existing objects. Generating new objects, however, remains a challenge for such methods, which we address in this study. Specifically, we propose grounding the 3D object insertion to a 2D object insertion in a reference view of the scene. The 2D edit is then lifted to 3D using a single-view object reconstruction method. The reconstructed object is then inserted into the scene, guided by the priors of monocular depth estimation methods. We evaluate our method on various 3D scenes and provide an in-depth analysis of the proposed components. Our experiments with generative insertion of objects in several 3D scenes indicate the effectiveness of our method compared to the existing methods. InseRF is capable of controllable and 3D-consistent object insertion without requiring explicit 3D information as input. Please visit our project page at https://mohamad-shahbazi.github.io/inserf.

InseRF: Inserzione Generativa di Oggetti Guidata da Testo in Scene Neurali 3D

InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes

Abstract

Support