ChatPaper.aiChatPaper

Síntese Facial 3D Guiada por Texto -- Da Geração à Edição

Text-Guided 3D Face Synthesis -- From Generation to Editing

December 1, 2023
Autores: Yunjie Wu, Yapeng Meng, Zhipeng Hu, Lincheng Li, Haoqian Wu, Kun Zhou, Weiwei Xu, Xin Yu
cs.AI

Resumo

A síntese de faces 3D guiada por texto alcançou resultados notáveis ao aproveitar modelos de difusão de texto para imagem (T2I). No entanto, a maioria dos trabalhos existentes concentra-se apenas na geração direta, ignorando a edição, o que os limita na síntese de faces 3D personalizadas por meio de ajustes iterativos. Neste artigo, propomos um framework unificado guiado por texto, desde a geração até a edição de faces. Na etapa de geração, propomos uma geração desacoplada de geometria-textura para mitigar a perda de detalhes geométricos causada pelo acoplamento. Além disso, o desacoplamento nos permite utilizar a geometria gerada como condição para a geração de textura, produzindo resultados altamente alinhados entre geometria e textura. Empregamos ainda um modelo de difusão de textura ajustado para aprimorar a qualidade da textura tanto no espaço RGB quanto no YUV. Na etapa de edição, utilizamos primeiro um modelo de difusão pré-treinado para atualizar a geometria ou a textura facial com base nos textos. Para permitir a edição sequencial, introduzimos uma regularização de preservação de consistência no domínio UV, evitando alterações não intencionais em atributos faciais irrelevantes. Além disso, propomos uma estratégia de peso de consistência autoguiada para melhorar a eficácia da edição enquanto mantém a consistência. Por meio de experimentos abrangentes, demonstramos a superioridade do nosso método na síntese de faces. Página do projeto: https://faceg2e.github.io/.
English
Text-guided 3D face synthesis has achieved remarkable results by leveraging text-to-image (T2I) diffusion models. However, most existing works focus solely on the direct generation, ignoring the editing, restricting them from synthesizing customized 3D faces through iterative adjustments. In this paper, we propose a unified text-guided framework from face generation to editing. In the generation stage, we propose a geometry-texture decoupled generation to mitigate the loss of geometric details caused by coupling. Besides, decoupling enables us to utilize the generated geometry as a condition for texture generation, yielding highly geometry-texture aligned results. We further employ a fine-tuned texture diffusion model to enhance texture quality in both RGB and YUV space. In the editing stage, we first employ a pre-trained diffusion model to update facial geometry or texture based on the texts. To enable sequential editing, we introduce a UV domain consistency preservation regularization, preventing unintentional changes to irrelevant facial attributes. Besides, we propose a self-guided consistency weight strategy to improve editing efficacy while preserving consistency. Through comprehensive experiments, we showcase our method's superiority in face synthesis. Project page: https://faceg2e.github.io/.
PDF111February 9, 2026