ChatPaper.aiChatPaper

InseRF : Insertion générative d'objets pilotée par texte dans des scènes neuronales 3D

InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes

January 10, 2024
Auteurs: Mohamad Shahbazi, Liesbeth Claessens, Michael Niemeyer, Edo Collins, Alessio Tonioni, Luc Van Gool, Federico Tombari
cs.AI

Résumé

Nous présentons InseRF, une nouvelle méthode pour l'insertion générative d'objets dans les reconstructions NeRF de scènes 3D. Basée sur une description textuelle fournie par l'utilisateur et une boîte englobante 2D dans un point de vue de référence, InseRF génère de nouveaux objets dans des scènes 3D. Récemment, les méthodes d'édition de scènes 3D ont été profondément transformées grâce à l'utilisation de forts a priori issus des modèles de diffusion texte-image dans la modélisation générative 3D. Les méthodes existantes sont principalement efficaces pour éditer des scènes 3D via des changements de style et d'apparence ou pour supprimer des objets existants. Cependant, la génération de nouveaux objets reste un défi pour ces méthodes, que nous abordons dans cette étude. Plus précisément, nous proposons d'ancrer l'insertion d'objets 3D à une insertion d'objet 2D dans une vue de référence de la scène. L'édition 2D est ensuite élevée en 3D à l'aide d'une méthode de reconstruction d'objet à vue unique. L'objet reconstruit est ensuite inséré dans la scène, guidé par les a priori des méthodes d'estimation de profondeur monoculaire. Nous évaluons notre méthode sur diverses scènes 3D et fournissons une analyse approfondie des composants proposés. Nos expériences d'insertion générative d'objets dans plusieurs scènes 3D démontrent l'efficacité de notre méthode par rapport aux méthodes existantes. InseRF est capable d'une insertion d'objets contrôlable et cohérente en 3D sans nécessiter d'informations 3D explicites en entrée. Veuillez visiter notre page de projet à l'adresse https://mohamad-shahbazi.github.io/inserf.
English
We introduce InseRF, a novel method for generative object insertion in the NeRF reconstructions of 3D scenes. Based on a user-provided textual description and a 2D bounding box in a reference viewpoint, InseRF generates new objects in 3D scenes. Recently, methods for 3D scene editing have been profoundly transformed, owing to the use of strong priors of text-to-image diffusion models in 3D generative modeling. Existing methods are mostly effective in editing 3D scenes via style and appearance changes or removing existing objects. Generating new objects, however, remains a challenge for such methods, which we address in this study. Specifically, we propose grounding the 3D object insertion to a 2D object insertion in a reference view of the scene. The 2D edit is then lifted to 3D using a single-view object reconstruction method. The reconstructed object is then inserted into the scene, guided by the priors of monocular depth estimation methods. We evaluate our method on various 3D scenes and provide an in-depth analysis of the proposed components. Our experiments with generative insertion of objects in several 3D scenes indicate the effectiveness of our method compared to the existing methods. InseRF is capable of controllable and 3D-consistent object insertion without requiring explicit 3D information as input. Please visit our project page at https://mohamad-shahbazi.github.io/inserf.
PDF300December 15, 2024