DreamEditor: Edición de Escenas 3D Basada en Texto con Campos Neuronales
DreamEditor: Text-Driven 3D Scene Editing with Neural Fields
June 23, 2023
Autores: Jingyu Zhuang, Chen Wang, Lingjie Liu, Liang Lin, Guanbin Li
cs.AI
Resumen
Los campos neuronales han logrado avances impresionantes en la síntesis de vistas y la reconstrucción de escenas. Sin embargo, editar estos campos neuronales sigue siendo un desafío debido a la codificación implícita de la geometría y la información de textura. En este artículo, proponemos DreamEditor, un marco novedoso que permite a los usuarios realizar ediciones controladas de campos neuronales utilizando indicaciones de texto. Al representar las escenas como campos neuronales basados en mallas, DreamEditor permite ediciones localizadas dentro de regiones específicas. DreamEditor utiliza el codificador de texto de un modelo de difusión de texto a imagen preentrenado para identificar automáticamente las regiones que deben editarse según la semántica de las indicaciones de texto. Posteriormente, DreamEditor optimiza la región de edición y alinea su geometría y textura con las indicaciones de texto mediante muestreo de destilación de puntuación [29]. Experimentos exhaustivos han demostrado que DreamEditor puede editar con precisión los campos neuronales de escenas del mundo real según las indicaciones de texto dadas, asegurando la consistencia en áreas irrelevantes. DreamEditor genera texturas y geometrías altamente realistas, superando significativamente trabajos anteriores tanto en evaluaciones cuantitativas como cualitativas.
English
Neural fields have achieved impressive advancements in view synthesis and
scene reconstruction. However, editing these neural fields remains challenging
due to the implicit encoding of geometry and texture information. In this
paper, we propose DreamEditor, a novel framework that enables users to perform
controlled editing of neural fields using text prompts. By representing scenes
as mesh-based neural fields, DreamEditor allows localized editing within
specific regions. DreamEditor utilizes the text encoder of a pretrained
text-to-Image diffusion model to automatically identify the regions to be
edited based on the semantics of the text prompts. Subsequently, DreamEditor
optimizes the editing region and aligns its geometry and texture with the text
prompts through score distillation sampling [29]. Extensive experiments have
demonstrated that DreamEditor can accurately edit neural fields of real-world
scenes according to the given text prompts while ensuring consistency in
irrelevant areas. DreamEditor generates highly realistic textures and geometry,
significantly surpassing previous works in both quantitative and qualitative
evaluations.