Textgesteuerte 3D-Gesichtssynthese – Von der Generierung zur Bearbeitung

papers.abstract

Die textgesteuerte 3D-Gesichtssynthese hat bemerkenswerte Ergebnisse erzielt, indem sie Text-zu-Bild (T2I)-Diffusionsmodelle nutzt. Die meisten bestehenden Arbeiten konzentrieren sich jedoch ausschließlich auf die direkte Generierung und vernachlässigen die Bearbeitung, was sie daran hindert, maßgeschneiderte 3D-Gesichter durch iterative Anpassungen zu synthetisieren. In diesem Artikel schlagen wir ein einheitliches textgesteuertes Framework von der Gesichtsgenerierung bis zur Bearbeitung vor. In der Generierungsphase schlagen wir eine geometrie-textur-entkoppelte Generierung vor, um den Verlust geometrischer Details, der durch die Kopplung verursacht wird, zu minimieren. Darüber hinaus ermöglicht die Entkopplung uns, die generierte Geometrie als Bedingung für die Texturgenerierung zu nutzen, was zu stark geometrie-textur-ausgerichteten Ergebnissen führt. Wir verwenden weiterhin ein feinabgestimmtes Textur-Diffusionsmodell, um die Texturqualität sowohl im RGB- als auch im YUV-Raum zu verbessern. In der Bearbeitungsphase setzen wir zunächst ein vortrainiertes Diffusionsmodell ein, um die Gesichtsgeometrie oder -textur basierend auf den Texten zu aktualisieren. Um eine sequenzielle Bearbeitung zu ermöglichen, führen wir eine UV-Domänen-Konsistenzbewahrungsregularisierung ein, die unbeabsichtigte Änderungen an irrelevanten Gesichtsattributen verhindert. Darüber hinaus schlagen wir eine selbstgesteuerte Konsistenzgewichtsstrategie vor, um die Bearbeitungseffizienz zu verbessern und gleichzeitig die Konsistenz zu bewahren. Durch umfassende Experimente demonstrieren wir die Überlegenheit unserer Methode in der Gesichtssynthese. Projektseite: https://faceg2e.github.io/.

English

Text-guided 3D face synthesis has achieved remarkable results by leveraging text-to-image (T2I) diffusion models. However, most existing works focus solely on the direct generation, ignoring the editing, restricting them from synthesizing customized 3D faces through iterative adjustments. In this paper, we propose a unified text-guided framework from face generation to editing. In the generation stage, we propose a geometry-texture decoupled generation to mitigate the loss of geometric details caused by coupling. Besides, decoupling enables us to utilize the generated geometry as a condition for texture generation, yielding highly geometry-texture aligned results. We further employ a fine-tuned texture diffusion model to enhance texture quality in both RGB and YUV space. In the editing stage, we first employ a pre-trained diffusion model to update facial geometry or texture based on the texts. To enable sequential editing, we introduce a UV domain consistency preservation regularization, preventing unintentional changes to irrelevant facial attributes. Besides, we propose a self-guided consistency weight strategy to improve editing efficacy while preserving consistency. Through comprehensive experiments, we showcase our method's superiority in face synthesis. Project page: https://faceg2e.github.io/.

Textgesteuerte 3D-Gesichtssynthese – Von der Generierung zur Bearbeitung

Text-Guided 3D Face Synthesis -- From Generation to Editing

papers.abstract

Support