Tekstgeleide 3D-gezichtsynthese -- Van generatie tot bewerking
Text-Guided 3D Face Synthesis -- From Generation to Editing
December 1, 2023
Auteurs: Yunjie Wu, Yapeng Meng, Zhipeng Hu, Lincheng Li, Haoqian Wu, Kun Zhou, Weiwei Xu, Xin Yu
cs.AI
Samenvatting
Tekstgestuurde 3D-gezichtssynthese heeft opmerkelijke resultaten bereikt door gebruik te maken van tekst-naar-beeld (T2I) diffusiemodellen. De meeste bestaande werken richten zich echter uitsluitend op directe generatie, waarbij het bewerken wordt genegeerd, wat hen beperkt in het synthetiseren van gepersonaliseerde 3D-gezichten door middel van iteratieve aanpassingen. In dit artikel stellen we een uniform tekstgestuurd framework voor, van gezichtsgeneratie tot bewerking. In de generatiefase introduceren we een geometrie-textuur ontkoppelde generatie om het verlies van geometrische details veroorzaakt door koppeling te verminderen. Bovendien stelt ontkoppeling ons in staat om de gegenereerde geometrie als voorwaarde te gebruiken voor textuurgeneratie, wat sterk op elkaar afgestemde geometrie-textuur resultaten oplevert. We gebruiken verder een fijn afgesteld textuur diffusiemodel om de textuurkwaliteit in zowel RGB- als YUV-ruimte te verbeteren. In de bewerkingsfase gebruiken we eerst een vooraf getraind diffusiemodel om de gezichtsgeometrie of textuur bij te werken op basis van de teksten. Om sequentiële bewerking mogelijk te maken, introduceren we een UV-domein consistentiebehoud regularisatie, wat onbedoelde wijzigingen aan irrelevante gezichtskenmerken voorkomt. Daarnaast stellen we een zelfgestuurde consistentiegewichtstrategie voor om de bewerkingsdoeltreffendheid te verbeteren terwijl consistentie behouden blijft. Door middel van uitgebreide experimenten tonen we de superioriteit van onze methode in gezichtssynthese aan. Projectpagina: https://faceg2e.github.io/.
English
Text-guided 3D face synthesis has achieved remarkable results by leveraging
text-to-image (T2I) diffusion models. However, most existing works focus solely
on the direct generation, ignoring the editing, restricting them from
synthesizing customized 3D faces through iterative adjustments. In this paper,
we propose a unified text-guided framework from face generation to editing. In
the generation stage, we propose a geometry-texture decoupled generation to
mitigate the loss of geometric details caused by coupling. Besides, decoupling
enables us to utilize the generated geometry as a condition for texture
generation, yielding highly geometry-texture aligned results. We further employ
a fine-tuned texture diffusion model to enhance texture quality in both RGB and
YUV space. In the editing stage, we first employ a pre-trained diffusion model
to update facial geometry or texture based on the texts. To enable sequential
editing, we introduce a UV domain consistency preservation regularization,
preventing unintentional changes to irrelevant facial attributes. Besides, we
propose a self-guided consistency weight strategy to improve editing efficacy
while preserving consistency. Through comprehensive experiments, we showcase
our method's superiority in face synthesis. Project page:
https://faceg2e.github.io/.