Blended-NeRF : Génération d'objets en zero-shot et intégration dans des champs de radiance neuronaux existants
Blended-NeRF: Zero-Shot Object Generation and Blending in Existing Neural Radiance Fields
June 22, 2023
Auteurs: Ori Gordon, Omri Avrahami, Dani Lischinski
cs.AI
Résumé
La modification d'une région locale ou d'un objet spécifique dans une scène 3D représentée par un NeRF est un défi, principalement en raison de la nature implicite de la représentation de la scène. L'intégration cohérente d'un nouvel objet réaliste dans la scène ajoute un niveau de difficulté supplémentaire. Nous présentons Blended-NeRF, un cadre robuste et flexible pour éditer une région d'intérêt spécifique dans une scène NeRF existante, basé sur des invites textuelles ou des patchs d'image, ainsi qu'une boîte ROI 3D. Notre méthode exploite un modèle langage-image pré-entraîné pour orienter la synthèse vers une invite textuelle ou un patch d'image fourni par l'utilisateur, ainsi qu'un modèle MLP 3D initialisé sur une scène NeRF existante pour générer l'objet et l'intégrer dans une région spécifiée de la scène originale. Nous permettons une édition locale en localisant une boîte ROI 3D dans la scène d'entrée, et fusionnons de manière transparente le contenu synthétisé à l'intérieur de la ROI avec la scène existante en utilisant une nouvelle technique de fusion volumétrique. Pour obtenir des résultats naturels et cohérents en termes de vue, nous exploitons des connaissances géométriques existantes et nouvelles ainsi que des augmentations 3D pour améliorer la fidélité visuelle du résultat final.
Nous testons notre cadre qualitativement et quantitativement sur une variété de scènes 3D réelles et d'invites textuelles, démontrant des résultats réalistes et cohérents en multi-vues avec une grande flexibilité et diversité par rapport aux méthodes de référence. Enfin, nous montrons l'applicabilité de notre cadre à plusieurs applications d'édition 3D, notamment l'ajout de nouveaux objets à une scène, la suppression/remplacement/modification d'objets existants, et la conversion de textures.
English
Editing a local region or a specific object in a 3D scene represented by a
NeRF is challenging, mainly due to the implicit nature of the scene
representation. Consistently blending a new realistic object into the scene
adds an additional level of difficulty. We present Blended-NeRF, a robust and
flexible framework for editing a specific region of interest in an existing
NeRF scene, based on text prompts or image patches, along with a 3D ROI box.
Our method leverages a pretrained language-image model to steer the synthesis
towards a user-provided text prompt or image patch, along with a 3D MLP model
initialized on an existing NeRF scene to generate the object and blend it into
a specified region in the original scene. We allow local editing by localizing
a 3D ROI box in the input scene, and seamlessly blend the content synthesized
inside the ROI with the existing scene using a novel volumetric blending
technique. To obtain natural looking and view-consistent results, we leverage
existing and new geometric priors and 3D augmentations for improving the visual
fidelity of the final result.
We test our framework both qualitatively and quantitatively on a variety of
real 3D scenes and text prompts, demonstrating realistic multi-view consistent
results with much flexibility and diversity compared to the baselines. Finally,
we show the applicability of our framework for several 3D editing applications,
including adding new objects to a scene, removing/replacing/altering existing
objects, and texture conversion.