DreamEditor : Édition de scènes 3D pilotée par texte avec des champs neuronaux
DreamEditor: Text-Driven 3D Scene Editing with Neural Fields
June 23, 2023
Auteurs: Jingyu Zhuang, Chen Wang, Lingjie Liu, Liang Lin, Guanbin Li
cs.AI
Résumé
Les champs neuronaux ont réalisé des avancées impressionnantes dans la synthèse de vues et la reconstruction de scènes. Cependant, l'édition de ces champs neuronaux reste un défi en raison de l'encodage implicite des informations géométriques et texturales. Dans cet article, nous proposons DreamEditor, un nouveau cadre permettant aux utilisateurs d'effectuer des modifications contrôlées des champs neuronaux à l'aide de prompts textuels. En représentant les scènes sous forme de champs neuronaux basés sur des maillages, DreamEditor permet des modifications localisées dans des régions spécifiques. DreamEditor utilise l'encodeur de texte d'un modèle de diffusion texte-image pré-entraîné pour identifier automatiquement les régions à modifier en fonction de la sémantique des prompts textuels. Par la suite, DreamEditor optimise la région à modifier et aligne sa géométrie et sa texture avec les prompts textuels grâce à l'échantillonnage par distillation de score [29]. Des expériences approfondies ont démontré que DreamEditor peut modifier avec précision les champs neuronaux de scènes du monde réel selon les prompts textuels donnés, tout en garantissant la cohérence des zones non concernées. DreamEditor génère des textures et des géométries hautement réalistes, surpassant significativement les travaux précédents dans les évaluations quantitatives et qualitatives.
English
Neural fields have achieved impressive advancements in view synthesis and
scene reconstruction. However, editing these neural fields remains challenging
due to the implicit encoding of geometry and texture information. In this
paper, we propose DreamEditor, a novel framework that enables users to perform
controlled editing of neural fields using text prompts. By representing scenes
as mesh-based neural fields, DreamEditor allows localized editing within
specific regions. DreamEditor utilizes the text encoder of a pretrained
text-to-Image diffusion model to automatically identify the regions to be
edited based on the semantics of the text prompts. Subsequently, DreamEditor
optimizes the editing region and aligns its geometry and texture with the text
prompts through score distillation sampling [29]. Extensive experiments have
demonstrated that DreamEditor can accurately edit neural fields of real-world
scenes according to the given text prompts while ensuring consistency in
irrelevant areas. DreamEditor generates highly realistic textures and geometry,
significantly surpassing previous works in both quantitative and qualitative
evaluations.