Синтез 3D-лиц с текстовым управлением — от генерации до редактирования
Text-Guided 3D Face Synthesis -- From Generation to Editing
December 1, 2023
Авторы: Yunjie Wu, Yapeng Meng, Zhipeng Hu, Lincheng Li, Haoqian Wu, Kun Zhou, Weiwei Xu, Xin Yu
cs.AI
Аннотация
Синтез 3D-лиц с текстовым управлением достиг впечатляющих результатов благодаря использованию моделей диффузии "текст-изображение" (T2I). Однако большинство существующих работ сосредоточено исключительно на прямой генерации, игнорируя редактирование, что ограничивает возможность создания персонализированных 3D-лиц через итеративные изменения. В данной статье мы предлагаем унифицированную текстово-управляемую структуру, охватывающую как генерацию, так и редактирование лиц. На этапе генерации мы предлагаем раздельную генерацию геометрии и текстуры, чтобы минимизировать потерю геометрических деталей, вызванную их совместной обработкой. Кроме того, разделение позволяет использовать сгенерированную геометрию в качестве условия для генерации текстуры, что обеспечивает высокую согласованность геометрии и текстуры. Мы также применяем дообученную модель диффузии текстуры для повышения качества текстуры как в RGB, так и в YUV пространстве. На этапе редактирования мы сначала используем предобученную модель диффузии для обновления геометрии или текстуры лица на основе текстовых описаний. Для обеспечения последовательного редактирования мы вводим регуляризацию сохранения согласованности в UV-области, предотвращая непреднамеренные изменения несвязанных атрибутов лица. Кроме того, мы предлагаем стратегию самоконтролируемого веса согласованности для повышения эффективности редактирования при сохранении согласованности. В ходе всесторонних экспериментов мы демонстрируем превосходство нашего метода в синтезе лиц. Страница проекта: https://faceg2e.github.io/.
English
Text-guided 3D face synthesis has achieved remarkable results by leveraging
text-to-image (T2I) diffusion models. However, most existing works focus solely
on the direct generation, ignoring the editing, restricting them from
synthesizing customized 3D faces through iterative adjustments. In this paper,
we propose a unified text-guided framework from face generation to editing. In
the generation stage, we propose a geometry-texture decoupled generation to
mitigate the loss of geometric details caused by coupling. Besides, decoupling
enables us to utilize the generated geometry as a condition for texture
generation, yielding highly geometry-texture aligned results. We further employ
a fine-tuned texture diffusion model to enhance texture quality in both RGB and
YUV space. In the editing stage, we first employ a pre-trained diffusion model
to update facial geometry or texture based on the texts. To enable sequential
editing, we introduce a UV domain consistency preservation regularization,
preventing unintentional changes to irrelevant facial attributes. Besides, we
propose a self-guided consistency weight strategy to improve editing efficacy
while preserving consistency. Through comprehensive experiments, we showcase
our method's superiority in face synthesis. Project page:
https://faceg2e.github.io/.