Génération et édition guidées par texte d'avatars compositionnels 3D
Text-Guided Generation and Editing of Compositional 3D Avatars
September 13, 2023
Auteurs: Hao Zhang, Yao Feng, Peter Kulits, Yandong Wen, Justus Thies, Michael J. Black
cs.AI
Résumé
Notre objectif est de créer un avatar facial 3D réaliste avec des cheveux et des accessoires en utilisant uniquement une description textuelle. Bien que ce défi ait suscité un intérêt considérable récemment, les méthodes existantes manquent soit de réalisme, produisent des formes irréalistes, ou ne permettent pas d'édition, comme des modifications de la coiffure. Nous soutenons que les méthodes actuelles sont limitées car elles emploient une approche de modélisation monolithique, utilisant une représentation unique pour la tête, le visage, les cheveux et les accessoires. Notre observation est que les cheveux et le visage, par exemple, ont des qualités structurelles très différentes qui bénéficient de représentations distinctes. En nous appuyant sur cette idée, nous générons des avatars avec un modèle compositionnel, dans lequel la tête, le visage et le haut du corps sont représentés par des maillages 3D traditionnels, et les cheveux, les vêtements et les accessoires par des champs de radiance neuronaux (NeRF). La représentation par maillage basée sur un modèle fournit une forte priorité géométrique pour la région du visage, améliorant le réalisme tout en permettant l'édition de l'apparence de la personne. En utilisant des NeRFs pour représenter les composants restants, notre méthode est capable de modéliser et de synthétiser des parties avec une géométrie et une apparence complexes, comme des cheveux bouclés et des écharpes duveteuses. Notre système novateur synthétise ces avatars compositionnels de haute qualité à partir de descriptions textuelles. Les résultats expérimentaux démontrent que notre méthode, Génération et Édition d'Avatars Compositionnels Guidée par Texte (TECA), produit des avatars plus réalistes que ceux des méthodes récentes tout en étant éditables grâce à leur nature compositionnelle. Par exemple, notre TECA permet le transfert fluide de caractéristiques compositionnelles comme les coiffures, les écharpes et autres accessoires entre avatars. Cette capacité soutient des applications telles que l'essayage virtuel.
English
Our goal is to create a realistic 3D facial avatar with hair and accessories
using only a text description. While this challenge has attracted significant
recent interest, existing methods either lack realism, produce unrealistic
shapes, or do not support editing, such as modifications to the hairstyle. We
argue that existing methods are limited because they employ a monolithic
modeling approach, using a single representation for the head, face, hair, and
accessories. Our observation is that the hair and face, for example, have very
different structural qualities that benefit from different representations.
Building on this insight, we generate avatars with a compositional model, in
which the head, face, and upper body are represented with traditional 3D
meshes, and the hair, clothing, and accessories with neural radiance fields
(NeRF). The model-based mesh representation provides a strong geometric prior
for the face region, improving realism while enabling editing of the person's
appearance. By using NeRFs to represent the remaining components, our method is
able to model and synthesize parts with complex geometry and appearance, such
as curly hair and fluffy scarves. Our novel system synthesizes these
high-quality compositional avatars from text descriptions. The experimental
results demonstrate that our method, Text-guided generation and Editing of
Compositional Avatars (TECA), produces avatars that are more realistic than
those of recent methods while being editable because of their compositional
nature. For example, our TECA enables the seamless transfer of compositional
features like hairstyles, scarves, and other accessories between avatars. This
capability supports applications such as virtual try-on.