Synthèse et Édition de Visages 3D Guidée par Texte – De la Génération à la Modification
Text-Guided 3D Face Synthesis -- From Generation to Editing
December 1, 2023
Auteurs: Yunjie Wu, Yapeng Meng, Zhipeng Hu, Lincheng Li, Haoqian Wu, Kun Zhou, Weiwei Xu, Xin Yu
cs.AI
Résumé
La synthèse de visages 3D guidée par texte a obtenu des résultats remarquables en exploitant les modèles de diffusion texte-à-image (T2I). Cependant, la plupart des travaux existants se concentrent uniquement sur la génération directe, négligeant l'édition, ce qui les empêche de synthétiser des visages 3D personnalisés grâce à des ajustements itératifs. Dans cet article, nous proposons un cadre unifié guidé par texte, allant de la génération à l'édition de visages. Dans l'étape de génération, nous proposons une génération découplée géométrie-texture pour atténuer la perte de détails géométriques causée par le couplage. De plus, ce découplage nous permet d'utiliser la géométrie générée comme condition pour la génération de texture, produisant des résultats fortement alignés entre géométrie et texture. Nous employons également un modèle de diffusion de texture affiné pour améliorer la qualité de la texture dans les espaces RGB et YUV. Dans l'étape d'édition, nous utilisons d'abord un modèle de diffusion pré-entraîné pour mettre à jour la géométrie ou la texture du visage en fonction des textes. Pour permettre une édition séquentielle, nous introduisons une régularisation de préservation de la cohérence dans le domaine UV, empêchant les modifications involontaires des attributs faciaux non pertinents. Par ailleurs, nous proposons une stratégie de pondération de cohérence auto-guidée pour améliorer l'efficacité de l'édition tout en préservant la cohérence. À travers des expériences approfondies, nous démontrons la supériorité de notre méthode dans la synthèse de visages. Page du projet : https://faceg2e.github.io/.
English
Text-guided 3D face synthesis has achieved remarkable results by leveraging
text-to-image (T2I) diffusion models. However, most existing works focus solely
on the direct generation, ignoring the editing, restricting them from
synthesizing customized 3D faces through iterative adjustments. In this paper,
we propose a unified text-guided framework from face generation to editing. In
the generation stage, we propose a geometry-texture decoupled generation to
mitigate the loss of geometric details caused by coupling. Besides, decoupling
enables us to utilize the generated geometry as a condition for texture
generation, yielding highly geometry-texture aligned results. We further employ
a fine-tuned texture diffusion model to enhance texture quality in both RGB and
YUV space. In the editing stage, we first employ a pre-trained diffusion model
to update facial geometry or texture based on the texts. To enable sequential
editing, we introduce a UV domain consistency preservation regularization,
preventing unintentional changes to irrelevant facial attributes. Besides, we
propose a self-guided consistency weight strategy to improve editing efficacy
while preserving consistency. Through comprehensive experiments, we showcase
our method's superiority in face synthesis. Project page:
https://faceg2e.github.io/.