ChatPaper.aiChatPaper

Síntesis de Caras 3D Guiada por Texto: Desde la Generación hasta la Edición

Text-Guided 3D Face Synthesis -- From Generation to Editing

December 1, 2023
Autores: Yunjie Wu, Yapeng Meng, Zhipeng Hu, Lincheng Li, Haoqian Wu, Kun Zhou, Weiwei Xu, Xin Yu
cs.AI

Resumen

La síntesis de caras 3D guiada por texto ha logrado resultados notables al aprovechar los modelos de difusión de texto a imagen (T2I). Sin embargo, la mayoría de los trabajos existentes se centran únicamente en la generación directa, ignorando la edición, lo que les impide sintetizar caras 3D personalizadas mediante ajustes iterativos. En este artículo, proponemos un marco unificado guiado por texto que abarca desde la generación hasta la edición de caras. En la etapa de generación, proponemos una generación desacoplada de geometría-textura para mitigar la pérdida de detalles geométricos causada por el acoplamiento. Además, el desacoplamiento nos permite utilizar la geometría generada como condición para la generación de texturas, obteniendo resultados altamente alineados entre geometría y textura. También empleamos un modelo de difusión de texturas ajustado para mejorar la calidad de las texturas tanto en el espacio RGB como en el YUV. En la etapa de edición, primero utilizamos un modelo de difusión preentrenado para actualizar la geometría o la textura facial basándonos en los textos. Para habilitar la edición secuencial, introducimos una regularización de preservación de consistencia en el dominio UV, evitando cambios no deseados en atributos faciales irrelevantes. Además, proponemos una estrategia de peso de consistencia autoguiada para mejorar la eficacia de la edición mientras se preserva la consistencia. A través de experimentos exhaustivos, demostramos la superioridad de nuestro método en la síntesis de caras. Página del proyecto: https://faceg2e.github.io/.
English
Text-guided 3D face synthesis has achieved remarkable results by leveraging text-to-image (T2I) diffusion models. However, most existing works focus solely on the direct generation, ignoring the editing, restricting them from synthesizing customized 3D faces through iterative adjustments. In this paper, we propose a unified text-guided framework from face generation to editing. In the generation stage, we propose a geometry-texture decoupled generation to mitigate the loss of geometric details caused by coupling. Besides, decoupling enables us to utilize the generated geometry as a condition for texture generation, yielding highly geometry-texture aligned results. We further employ a fine-tuned texture diffusion model to enhance texture quality in both RGB and YUV space. In the editing stage, we first employ a pre-trained diffusion model to update facial geometry or texture based on the texts. To enable sequential editing, we introduce a UV domain consistency preservation regularization, preventing unintentional changes to irrelevant facial attributes. Besides, we propose a self-guided consistency weight strategy to improve editing efficacy while preserving consistency. Through comprehensive experiments, we showcase our method's superiority in face synthesis. Project page: https://faceg2e.github.io/.
PDF111December 15, 2024