InseRF : Insertion générative d'objets pilotée par texte dans des scènes neuronales 3D
InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes
January 10, 2024
Auteurs: Mohamad Shahbazi, Liesbeth Claessens, Michael Niemeyer, Edo Collins, Alessio Tonioni, Luc Van Gool, Federico Tombari
cs.AI
Résumé
Nous présentons InseRF, une nouvelle méthode pour l'insertion générative d'objets dans les reconstructions NeRF de scènes 3D. Basée sur une description textuelle fournie par l'utilisateur et une boîte englobante 2D dans un point de vue de référence, InseRF génère de nouveaux objets dans des scènes 3D. Récemment, les méthodes d'édition de scènes 3D ont été profondément transformées grâce à l'utilisation de forts a priori issus des modèles de diffusion texte-image dans la modélisation générative 3D. Les méthodes existantes sont principalement efficaces pour éditer des scènes 3D via des changements de style et d'apparence ou pour supprimer des objets existants. Cependant, la génération de nouveaux objets reste un défi pour ces méthodes, que nous abordons dans cette étude. Plus précisément, nous proposons d'ancrer l'insertion d'objets 3D à une insertion d'objet 2D dans une vue de référence de la scène. L'édition 2D est ensuite élevée en 3D à l'aide d'une méthode de reconstruction d'objet à vue unique. L'objet reconstruit est ensuite inséré dans la scène, guidé par les a priori des méthodes d'estimation de profondeur monoculaire. Nous évaluons notre méthode sur diverses scènes 3D et fournissons une analyse approfondie des composants proposés. Nos expériences d'insertion générative d'objets dans plusieurs scènes 3D démontrent l'efficacité de notre méthode par rapport aux méthodes existantes. InseRF est capable d'une insertion d'objets contrôlable et cohérente en 3D sans nécessiter d'informations 3D explicites en entrée. Veuillez visiter notre page de projet à l'adresse https://mohamad-shahbazi.github.io/inserf.
English
We introduce InseRF, a novel method for generative object insertion in the
NeRF reconstructions of 3D scenes. Based on a user-provided textual description
and a 2D bounding box in a reference viewpoint, InseRF generates new objects in
3D scenes. Recently, methods for 3D scene editing have been profoundly
transformed, owing to the use of strong priors of text-to-image diffusion
models in 3D generative modeling. Existing methods are mostly effective in
editing 3D scenes via style and appearance changes or removing existing
objects. Generating new objects, however, remains a challenge for such methods,
which we address in this study. Specifically, we propose grounding the 3D
object insertion to a 2D object insertion in a reference view of the scene. The
2D edit is then lifted to 3D using a single-view object reconstruction method.
The reconstructed object is then inserted into the scene, guided by the priors
of monocular depth estimation methods. We evaluate our method on various 3D
scenes and provide an in-depth analysis of the proposed components. Our
experiments with generative insertion of objects in several 3D scenes indicate
the effectiveness of our method compared to the existing methods. InseRF is
capable of controllable and 3D-consistent object insertion without requiring
explicit 3D information as input. Please visit our project page at
https://mohamad-shahbazi.github.io/inserf.