Sintesi e Modifica di Volti 3D Guidata da Testo -- Dalla Generazione alla Modifica
Text-Guided 3D Face Synthesis -- From Generation to Editing
December 1, 2023
Autori: Yunjie Wu, Yapeng Meng, Zhipeng Hu, Lincheng Li, Haoqian Wu, Kun Zhou, Weiwei Xu, Xin Yu
cs.AI
Abstract
La sintesi di volti 3D guidata da testo ha ottenuto risultati notevoli sfruttando modelli di diffusione testo-immagine (T2I). Tuttavia, la maggior parte dei lavori esistenti si concentra esclusivamente sulla generazione diretta, ignorando l'editing, limitandoli nella sintesi di volti 3D personalizzati attraverso aggiustamenti iterativi. In questo articolo, proponiamo un framework unificato guidato da testo che va dalla generazione all'editing di volti. Nella fase di generazione, proponiamo una generazione decuplicata di geometria e texture per mitigare la perdita di dettagli geometrici causata dall'accoppiamento. Inoltre, la decuplicazione ci consente di utilizzare la geometria generata come condizione per la generazione della texture, ottenendo risultati altamente allineati tra geometria e texture. Utilizziamo inoltre un modello di diffusione della texture fine-tuned per migliorare la qualità della texture sia nello spazio RGB che YUV. Nella fase di editing, impieghiamo prima un modello di diffusione pre-addestrato per aggiornare la geometria o la texture del volto in base ai testi. Per abilitare l'editing sequenziale, introduciamo una regolarizzazione di conservazione della consistenza nel dominio UV, prevenendo cambiamenti involontari agli attributi facciali irrilevanti. Inoltre, proponiamo una strategia di peso di consistenza auto-guidata per migliorare l'efficacia dell'editing preservando la consistenza. Attraverso esperimenti completi, dimostriamo la superiorità del nostro metodo nella sintesi di volti. Pagina del progetto: https://faceg2e.github.io/.
English
Text-guided 3D face synthesis has achieved remarkable results by leveraging
text-to-image (T2I) diffusion models. However, most existing works focus solely
on the direct generation, ignoring the editing, restricting them from
synthesizing customized 3D faces through iterative adjustments. In this paper,
we propose a unified text-guided framework from face generation to editing. In
the generation stage, we propose a geometry-texture decoupled generation to
mitigate the loss of geometric details caused by coupling. Besides, decoupling
enables us to utilize the generated geometry as a condition for texture
generation, yielding highly geometry-texture aligned results. We further employ
a fine-tuned texture diffusion model to enhance texture quality in both RGB and
YUV space. In the editing stage, we first employ a pre-trained diffusion model
to update facial geometry or texture based on the texts. To enable sequential
editing, we introduce a UV domain consistency preservation regularization,
preventing unintentional changes to irrelevant facial attributes. Besides, we
propose a self-guided consistency weight strategy to improve editing efficacy
while preserving consistency. Through comprehensive experiments, we showcase
our method's superiority in face synthesis. Project page:
https://faceg2e.github.io/.