Tekstgeleide generatie en bewerking van compositorische 3D-avatars
Text-Guided Generation and Editing of Compositional 3D Avatars
September 13, 2023
Auteurs: Hao Zhang, Yao Feng, Peter Kulits, Yandong Wen, Justus Thies, Michael J. Black
cs.AI
Samenvatting
Ons doel is het creëren van een realistische 3D-gezichtsavatar met haar en accessoires, uitsluitend gebaseerd op een tekstbeschrijving. Hoewel deze uitdaging recentelijk veel aandacht heeft getrokken, missen bestaande methodes realisme, produceren ze onrealistische vormen of ondersteunen ze geen bewerkingen, zoals aanpassingen aan het kapsel. Wij stellen dat bestaande methodes beperkt zijn omdat ze een monolithische modelleerbenadering hanteren, waarbij een enkele representatie wordt gebruikt voor het hoofd, gezicht, haar en accessoires. Onze observatie is dat het haar en gezicht bijvoorbeeld zeer verschillende structurele eigenschappen hebben die baat hebben bij verschillende representaties. Gebaseerd op dit inzicht genereren we avatars met een compositioneel model, waarbij het hoofd, gezicht en bovenlichaam worden gerepresenteerd met traditionele 3D-meshes, en het haar, kleding en accessoires met neurale stralingsvelden (NeRF). De modelgebaseerde mesh-representatie biedt een sterke geometrische prior voor het gezichtsgebied, wat het realisme verbetert en tegelijkertijd bewerkingen van het uiterlijk mogelijk maakt. Door NeRFs te gebruiken voor de overige componenten, is onze methode in staat om delen met complexe geometrie en uiterlijk, zoals krullend haar en donzige sjaals, te modelleren en te synthetiseren. Ons nieuwe systeem synthetiseert deze hoogwaardige compositionele avatars vanuit tekstbeschrijvingen. De experimentele resultaten tonen aan dat onze methode, Text-guided generation and Editing of Compositional Avatars (TECA), avatars produceert die realistischer zijn dan die van recente methodes, terwijl ze bewerkbaar zijn vanwege hun compositionele aard. Zo maakt onze TECA het naadloos overbrengen van compositionele kenmerken zoals kapsels, sjaals en andere accessoires tussen avatars mogelijk. Deze mogelijkheid ondersteunt toepassingen zoals virtueel passen.
English
Our goal is to create a realistic 3D facial avatar with hair and accessories
using only a text description. While this challenge has attracted significant
recent interest, existing methods either lack realism, produce unrealistic
shapes, or do not support editing, such as modifications to the hairstyle. We
argue that existing methods are limited because they employ a monolithic
modeling approach, using a single representation for the head, face, hair, and
accessories. Our observation is that the hair and face, for example, have very
different structural qualities that benefit from different representations.
Building on this insight, we generate avatars with a compositional model, in
which the head, face, and upper body are represented with traditional 3D
meshes, and the hair, clothing, and accessories with neural radiance fields
(NeRF). The model-based mesh representation provides a strong geometric prior
for the face region, improving realism while enabling editing of the person's
appearance. By using NeRFs to represent the remaining components, our method is
able to model and synthesize parts with complex geometry and appearance, such
as curly hair and fluffy scarves. Our novel system synthesizes these
high-quality compositional avatars from text descriptions. The experimental
results demonstrate that our method, Text-guided generation and Editing of
Compositional Avatars (TECA), produces avatars that are more realistic than
those of recent methods while being editable because of their compositional
nature. For example, our TECA enables the seamless transfer of compositional
features like hairstyles, scarves, and other accessories between avatars. This
capability supports applications such as virtual try-on.