InseRF: Inserzione Generativa di Oggetti Guidata da Testo in Scene Neurali 3D
InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes
January 10, 2024
Autori: Mohamad Shahbazi, Liesbeth Claessens, Michael Niemeyer, Edo Collins, Alessio Tonioni, Luc Van Gool, Federico Tombari
cs.AI
Abstract
Presentiamo InseRF, un metodo innovativo per l'inserimento generativo di oggetti nelle ricostruzioni NeRF di scene 3D. Basandosi su una descrizione testuale fornita dall'utente e su un riquadro di delimitazione 2D in un punto di vista di riferimento, InseRF genera nuovi oggetti nelle scene 3D. Recentemente, i metodi per la modifica di scene 3D sono stati profondamente trasformati grazie all'uso di forti prior dei modelli di diffusione testo-immagine nella modellazione generativa 3D. I metodi esistenti sono principalmente efficaci nella modifica di scene 3D attraverso cambiamenti di stile e aspetto o nella rimozione di oggetti esistenti. La generazione di nuovi oggetti, tuttavia, rimane una sfida per tali metodi, che affrontiamo in questo studio. Nello specifico, proponiamo di ancorare l'inserimento 3D di oggetti a un inserimento 2D in una vista di riferimento della scena. La modifica 2D viene poi estesa al 3D utilizzando un metodo di ricostruzione di oggetti a vista singola. L'oggetto ricostruito viene quindi inserito nella scena, guidato dai prior dei metodi di stima della profondità monoculare. Valutiamo il nostro metodo su varie scene 3D e forniamo un'analisi approfondita dei componenti proposti. I nostri esperimenti con l'inserimento generativo di oggetti in diverse scene 3D indicano l'efficacia del nostro metodo rispetto a quelli esistenti. InseRF è in grado di eseguire un inserimento di oggetti controllabile e coerente in 3D senza richiedere informazioni 3D esplicite come input. Visita la nostra pagina del progetto all'indirizzo https://mohamad-shahbazi.github.io/inserf.
English
We introduce InseRF, a novel method for generative object insertion in the
NeRF reconstructions of 3D scenes. Based on a user-provided textual description
and a 2D bounding box in a reference viewpoint, InseRF generates new objects in
3D scenes. Recently, methods for 3D scene editing have been profoundly
transformed, owing to the use of strong priors of text-to-image diffusion
models in 3D generative modeling. Existing methods are mostly effective in
editing 3D scenes via style and appearance changes or removing existing
objects. Generating new objects, however, remains a challenge for such methods,
which we address in this study. Specifically, we propose grounding the 3D
object insertion to a 2D object insertion in a reference view of the scene. The
2D edit is then lifted to 3D using a single-view object reconstruction method.
The reconstructed object is then inserted into the scene, guided by the priors
of monocular depth estimation methods. We evaluate our method on various 3D
scenes and provide an in-depth analysis of the proposed components. Our
experiments with generative insertion of objects in several 3D scenes indicate
the effectiveness of our method compared to the existing methods. InseRF is
capable of controllable and 3D-consistent object insertion without requiring
explicit 3D information as input. Please visit our project page at
https://mohamad-shahbazi.github.io/inserf.