Generación y Edición Guiada por Texto de Avatares 3D Composicionales
Text-Guided Generation and Editing of Compositional 3D Avatars
September 13, 2023
Autores: Hao Zhang, Yao Feng, Peter Kulits, Yandong Wen, Justus Thies, Michael J. Black
cs.AI
Resumen
Nuestro objetivo es crear un avatar facial 3D realista con cabello y accesorios utilizando únicamente una descripción textual. Aunque este desafío ha atraído un interés significativo recientemente, los métodos existentes carecen de realismo, producen formas poco realistas o no admiten ediciones, como modificaciones al peinado. Argumentamos que los métodos actuales son limitados porque emplean un enfoque de modelado monolítico, utilizando una única representación para la cabeza, el rostro, el cabello y los accesorios. Nuestra observación es que el cabello y el rostro, por ejemplo, tienen cualidades estructurales muy diferentes que se benefician de representaciones distintas. Basándonos en esta idea, generamos avatares con un modelo composicional, en el que la cabeza, el rostro y la parte superior del cuerpo se representan con mallas 3D tradicionales, mientras que el cabello, la ropa y los accesorios se representan con campos de radiancia neural (NeRF). La representación basada en mallas proporciona un fuerte prior geométrico para la región facial, mejorando el realismo y permitiendo la edición de la apariencia de la persona. Al utilizar NeRFs para representar los componentes restantes, nuestro método puede modelar y sintetizar partes con geometría y apariencia complejas, como cabello rizado y bufandas esponjosas. Nuestro sistema novedoso sintetiza estos avatares composicionales de alta calidad a partir de descripciones textuales. Los resultados experimentales demuestran que nuestro método, Generación y Edición de Avatares Composicionales Guiados por Texto (TECA), produce avatares más realistas que los de métodos recientes, además de ser editables debido a su naturaleza composicional. Por ejemplo, nuestro TECA permite la transferencia fluida de características composicionales como peinados, bufandas y otros accesorios entre avatares. Esta capacidad respalda aplicaciones como la prueba virtual de prendas.
English
Our goal is to create a realistic 3D facial avatar with hair and accessories
using only a text description. While this challenge has attracted significant
recent interest, existing methods either lack realism, produce unrealistic
shapes, or do not support editing, such as modifications to the hairstyle. We
argue that existing methods are limited because they employ a monolithic
modeling approach, using a single representation for the head, face, hair, and
accessories. Our observation is that the hair and face, for example, have very
different structural qualities that benefit from different representations.
Building on this insight, we generate avatars with a compositional model, in
which the head, face, and upper body are represented with traditional 3D
meshes, and the hair, clothing, and accessories with neural radiance fields
(NeRF). The model-based mesh representation provides a strong geometric prior
for the face region, improving realism while enabling editing of the person's
appearance. By using NeRFs to represent the remaining components, our method is
able to model and synthesize parts with complex geometry and appearance, such
as curly hair and fluffy scarves. Our novel system synthesizes these
high-quality compositional avatars from text descriptions. The experimental
results demonstrate that our method, Text-guided generation and Editing of
Compositional Avatars (TECA), produces avatars that are more realistic than
those of recent methods while being editable because of their compositional
nature. For example, our TECA enables the seamless transfer of compositional
features like hairstyles, scarves, and other accessories between avatars. This
capability supports applications such as virtual try-on.