Síntese Facial 3D Guiada por Texto -- Da Geração à Edição
Text-Guided 3D Face Synthesis -- From Generation to Editing
December 1, 2023
Autores: Yunjie Wu, Yapeng Meng, Zhipeng Hu, Lincheng Li, Haoqian Wu, Kun Zhou, Weiwei Xu, Xin Yu
cs.AI
Resumo
A síntese de faces 3D guiada por texto alcançou resultados notáveis ao aproveitar modelos de difusão de texto para imagem (T2I). No entanto, a maioria dos trabalhos existentes concentra-se apenas na geração direta, ignorando a edição, o que os limita na síntese de faces 3D personalizadas por meio de ajustes iterativos. Neste artigo, propomos um framework unificado guiado por texto, desde a geração até a edição de faces. Na etapa de geração, propomos uma geração desacoplada de geometria-textura para mitigar a perda de detalhes geométricos causada pelo acoplamento. Além disso, o desacoplamento nos permite utilizar a geometria gerada como condição para a geração de textura, produzindo resultados altamente alinhados entre geometria e textura. Empregamos ainda um modelo de difusão de textura ajustado para aprimorar a qualidade da textura tanto no espaço RGB quanto no YUV. Na etapa de edição, utilizamos primeiro um modelo de difusão pré-treinado para atualizar a geometria ou a textura facial com base nos textos. Para permitir a edição sequencial, introduzimos uma regularização de preservação de consistência no domínio UV, evitando alterações não intencionais em atributos faciais irrelevantes. Além disso, propomos uma estratégia de peso de consistência autoguiada para melhorar a eficácia da edição enquanto mantém a consistência. Por meio de experimentos abrangentes, demonstramos a superioridade do nosso método na síntese de faces. Página do projeto: https://faceg2e.github.io/.
English
Text-guided 3D face synthesis has achieved remarkable results by leveraging
text-to-image (T2I) diffusion models. However, most existing works focus solely
on the direct generation, ignoring the editing, restricting them from
synthesizing customized 3D faces through iterative adjustments. In this paper,
we propose a unified text-guided framework from face generation to editing. In
the generation stage, we propose a geometry-texture decoupled generation to
mitigate the loss of geometric details caused by coupling. Besides, decoupling
enables us to utilize the generated geometry as a condition for texture
generation, yielding highly geometry-texture aligned results. We further employ
a fine-tuned texture diffusion model to enhance texture quality in both RGB and
YUV space. In the editing stage, we first employ a pre-trained diffusion model
to update facial geometry or texture based on the texts. To enable sequential
editing, we introduce a UV domain consistency preservation regularization,
preventing unintentional changes to irrelevant facial attributes. Besides, we
propose a self-guided consistency weight strategy to improve editing efficacy
while preserving consistency. Through comprehensive experiments, we showcase
our method's superiority in face synthesis. Project page:
https://faceg2e.github.io/.