Textgesteuerte 3D-Gesichtssynthese – Von der Generierung zur Bearbeitung
Text-Guided 3D Face Synthesis -- From Generation to Editing
December 1, 2023
Autoren: Yunjie Wu, Yapeng Meng, Zhipeng Hu, Lincheng Li, Haoqian Wu, Kun Zhou, Weiwei Xu, Xin Yu
cs.AI
Zusammenfassung
Die textgesteuerte 3D-Gesichtssynthese hat bemerkenswerte Ergebnisse erzielt, indem sie Text-zu-Bild (T2I)-Diffusionsmodelle nutzt. Die meisten bestehenden Arbeiten konzentrieren sich jedoch ausschließlich auf die direkte Generierung und vernachlässigen die Bearbeitung, was sie daran hindert, maßgeschneiderte 3D-Gesichter durch iterative Anpassungen zu synthetisieren. In diesem Artikel schlagen wir ein einheitliches textgesteuertes Framework von der Gesichtsgenerierung bis zur Bearbeitung vor. In der Generierungsphase schlagen wir eine geometrie-textur-entkoppelte Generierung vor, um den Verlust geometrischer Details, der durch die Kopplung verursacht wird, zu minimieren. Darüber hinaus ermöglicht die Entkopplung uns, die generierte Geometrie als Bedingung für die Texturgenerierung zu nutzen, was zu stark geometrie-textur-ausgerichteten Ergebnissen führt. Wir verwenden weiterhin ein feinabgestimmtes Textur-Diffusionsmodell, um die Texturqualität sowohl im RGB- als auch im YUV-Raum zu verbessern. In der Bearbeitungsphase setzen wir zunächst ein vortrainiertes Diffusionsmodell ein, um die Gesichtsgeometrie oder -textur basierend auf den Texten zu aktualisieren. Um eine sequenzielle Bearbeitung zu ermöglichen, führen wir eine UV-Domänen-Konsistenzbewahrungsregularisierung ein, die unbeabsichtigte Änderungen an irrelevanten Gesichtsattributen verhindert. Darüber hinaus schlagen wir eine selbstgesteuerte Konsistenzgewichtsstrategie vor, um die Bearbeitungseffizienz zu verbessern und gleichzeitig die Konsistenz zu bewahren. Durch umfassende Experimente demonstrieren wir die Überlegenheit unserer Methode in der Gesichtssynthese. Projektseite: https://faceg2e.github.io/.
English
Text-guided 3D face synthesis has achieved remarkable results by leveraging
text-to-image (T2I) diffusion models. However, most existing works focus solely
on the direct generation, ignoring the editing, restricting them from
synthesizing customized 3D faces through iterative adjustments. In this paper,
we propose a unified text-guided framework from face generation to editing. In
the generation stage, we propose a geometry-texture decoupled generation to
mitigate the loss of geometric details caused by coupling. Besides, decoupling
enables us to utilize the generated geometry as a condition for texture
generation, yielding highly geometry-texture aligned results. We further employ
a fine-tuned texture diffusion model to enhance texture quality in both RGB and
YUV space. In the editing stage, we first employ a pre-trained diffusion model
to update facial geometry or texture based on the texts. To enable sequential
editing, we introduce a UV domain consistency preservation regularization,
preventing unintentional changes to irrelevant facial attributes. Besides, we
propose a self-guided consistency weight strategy to improve editing efficacy
while preserving consistency. Through comprehensive experiments, we showcase
our method's superiority in face synthesis. Project page:
https://faceg2e.github.io/.