Geração e Edição de Avatares 3D Composicionais Orientados por Texto
Text-Guided Generation and Editing of Compositional 3D Avatars
September 13, 2023
Autores: Hao Zhang, Yao Feng, Peter Kulits, Yandong Wen, Justus Thies, Michael J. Black
cs.AI
Resumo
Nosso objetivo é criar um avatar facial 3D realista com cabelo e acessórios utilizando apenas uma descrição textual. Embora esse desafio tenha atraído interesse significativo recentemente, os métodos existentes ou carecem de realismo, produzem formas irreais ou não suportam edições, como modificações no penteado. Argumentamos que os métodos existentes são limitados porque empregam uma abordagem de modelagem monolítica, usando uma única representação para a cabeça, rosto, cabelo e acessórios. Nossa observação é que o cabelo e o rosto, por exemplo, possuem qualidades estruturais muito diferentes que se beneficiam de representações distintas. Com base nessa percepção, geramos avatares com um modelo composicional, no qual a cabeça, o rosto e a parte superior do corpo são representados com malhas 3D tradicionais, e o cabelo, as roupas e os acessórios com campos de radiação neural (NeRF). A representação baseada em malha fornece um forte prior geométrico para a região do rosto, melhorando o realismo e permitindo a edição da aparência da pessoa. Ao usar NeRFs para representar os componentes restantes, nosso método é capaz de modelar e sintetizar partes com geometria e aparência complexas, como cabelos cacheados e cachecóis fofos. Nosso sistema inovador sintetiza esses avatares composicionais de alta qualidade a partir de descrições textuais. Os resultados experimentais demonstram que nosso método, Geração e Edição de Avatares Composicionais Orientada por Texto (TECA), produz avatares mais realistas do que os métodos recentes, além de serem editáveis devido à sua natureza composicional. Por exemplo, nosso TECA permite a transferência perfeita de características composicionais, como penteados, cachecóis e outros acessórios entre avatares. Essa capacidade suporta aplicações como experimentação virtual.
English
Our goal is to create a realistic 3D facial avatar with hair and accessories
using only a text description. While this challenge has attracted significant
recent interest, existing methods either lack realism, produce unrealistic
shapes, or do not support editing, such as modifications to the hairstyle. We
argue that existing methods are limited because they employ a monolithic
modeling approach, using a single representation for the head, face, hair, and
accessories. Our observation is that the hair and face, for example, have very
different structural qualities that benefit from different representations.
Building on this insight, we generate avatars with a compositional model, in
which the head, face, and upper body are represented with traditional 3D
meshes, and the hair, clothing, and accessories with neural radiance fields
(NeRF). The model-based mesh representation provides a strong geometric prior
for the face region, improving realism while enabling editing of the person's
appearance. By using NeRFs to represent the remaining components, our method is
able to model and synthesize parts with complex geometry and appearance, such
as curly hair and fluffy scarves. Our novel system synthesizes these
high-quality compositional avatars from text descriptions. The experimental
results demonstrate that our method, Text-guided generation and Editing of
Compositional Avatars (TECA), produces avatars that are more realistic than
those of recent methods while being editable because of their compositional
nature. For example, our TECA enables the seamless transfer of compositional
features like hairstyles, scarves, and other accessories between avatars. This
capability supports applications such as virtual try-on.