Текстово-управляемое создание и редактирование композиционных 3D-аватаров
Text-Guided Generation and Editing of Compositional 3D Avatars
September 13, 2023
Авторы: Hao Zhang, Yao Feng, Peter Kulits, Yandong Wen, Justus Thies, Michael J. Black
cs.AI
Аннотация
Наша цель — создать реалистичный 3D-аватар лица с волосами и аксессуарами, используя только текстовое описание. Хотя эта задача привлекает значительный интерес в последнее время, существующие методы либо недостаточно реалистичны, либо создают неестественные формы, либо не поддерживают редактирование, например, изменение прически. Мы утверждаем, что существующие методы ограничены, поскольку используют монолитный подход к моделированию, применяя единое представление для головы, лица, волос и аксессуаров. Наше наблюдение заключается в том, что, например, волосы и лицо имеют совершенно разные структурные характеристики, которые выигрывают от различных представлений. Основываясь на этом инсайте, мы создаем аватары с использованием композиционной модели, в которой голова, лицо и верхняя часть тела представлены традиционными 3D-мешами, а волосы, одежда и аксессуары — нейронными полями излучения (NeRF). Модельное представление меша обеспечивает сильный геометрический приоритет для области лица, повышая реалистичность и позволяя редактировать внешний вид человека. Используя NeRF для представления оставшихся компонентов, наш метод способен моделировать и синтезировать части со сложной геометрией и внешним видом, такие как кудрявые волосы и пушистые шарфы. Наша новая система синтезирует эти высококачественные композиционные аватары из текстовых описаний. Экспериментальные результаты демонстрируют, что наш метод, Text-guided generation and Editing of Compositional Avatars (TECA), создает аватары, которые более реалистичны, чем у современных методов, и при этом редактируемы благодаря их композиционной природе. Например, наш TECA позволяет бесшовно переносить композиционные элементы, такие как прически, шарфы и другие аксессуары, между аватарами. Эта возможность поддерживает такие приложения, как виртуальная примерка.
English
Our goal is to create a realistic 3D facial avatar with hair and accessories
using only a text description. While this challenge has attracted significant
recent interest, existing methods either lack realism, produce unrealistic
shapes, or do not support editing, such as modifications to the hairstyle. We
argue that existing methods are limited because they employ a monolithic
modeling approach, using a single representation for the head, face, hair, and
accessories. Our observation is that the hair and face, for example, have very
different structural qualities that benefit from different representations.
Building on this insight, we generate avatars with a compositional model, in
which the head, face, and upper body are represented with traditional 3D
meshes, and the hair, clothing, and accessories with neural radiance fields
(NeRF). The model-based mesh representation provides a strong geometric prior
for the face region, improving realism while enabling editing of the person's
appearance. By using NeRFs to represent the remaining components, our method is
able to model and synthesize parts with complex geometry and appearance, such
as curly hair and fluffy scarves. Our novel system synthesizes these
high-quality compositional avatars from text descriptions. The experimental
results demonstrate that our method, Text-guided generation and Editing of
Compositional Avatars (TECA), produces avatars that are more realistic than
those of recent methods while being editable because of their compositional
nature. For example, our TECA enables the seamless transfer of compositional
features like hairstyles, scarves, and other accessories between avatars. This
capability supports applications such as virtual try-on.