Generazione e Modifica Guidata da Testo di Avatar 3D Composizionali
Text-Guided Generation and Editing of Compositional 3D Avatars
September 13, 2023
Autori: Hao Zhang, Yao Feng, Peter Kulits, Yandong Wen, Justus Thies, Michael J. Black
cs.AI
Abstract
Il nostro obiettivo è creare un avatar facciale 3D realistico con capelli e accessori utilizzando solo una descrizione testuale. Sebbene questa sfida abbia attirato un notevole interesse recente, i metodi esistenti mancano di realismo, producono forme irrealistiche o non supportano modifiche, come cambiamenti all'acconciatura. Sosteniamo che i metodi attuali siano limitati perché adottano un approccio di modellazione monolitico, utilizzando una singola rappresentazione per la testa, il viso, i capelli e gli accessori. La nostra osservazione è che, ad esempio, i capelli e il viso hanno qualità strutturali molto diverse che beneficiano di rappresentazioni differenti. Basandoci su questa intuizione, generiamo avatar con un modello compositivo, in cui la testa, il viso e la parte superiore del corpo sono rappresentati con mesh 3D tradizionali, mentre i capelli, gli abiti e gli accessori sono rappresentati con campi di radianza neurale (NeRF). La rappresentazione basata su mesh fornisce un forte prior geometrico per la regione del viso, migliorando il realismo e consentendo la modifica dell'aspetto della persona. Utilizzando i NeRF per rappresentare i componenti rimanenti, il nostro metodo è in grado di modellare e sintetizzare parti con geometria e aspetto complessi, come capelli ricci e sciarpe voluminose. Il nostro sistema innovativo sintetizza questi avatar compositivi di alta qualità a partire da descrizioni testuali. I risultati sperimentali dimostrano che il nostro metodo, Generazione e Modifica Guidata da Testo di Avatar Composizionali (TECA), produce avatar più realistici rispetto ai metodi recenti, pur essendo modificabili grazie alla loro natura compositiva. Ad esempio, il nostro TECA consente il trasferimento senza soluzione di continuità di caratteristiche compositive come acconciature, sciarpe e altri accessori tra avatar. Questa capacità supporta applicazioni come il virtual try-on.
English
Our goal is to create a realistic 3D facial avatar with hair and accessories
using only a text description. While this challenge has attracted significant
recent interest, existing methods either lack realism, produce unrealistic
shapes, or do not support editing, such as modifications to the hairstyle. We
argue that existing methods are limited because they employ a monolithic
modeling approach, using a single representation for the head, face, hair, and
accessories. Our observation is that the hair and face, for example, have very
different structural qualities that benefit from different representations.
Building on this insight, we generate avatars with a compositional model, in
which the head, face, and upper body are represented with traditional 3D
meshes, and the hair, clothing, and accessories with neural radiance fields
(NeRF). The model-based mesh representation provides a strong geometric prior
for the face region, improving realism while enabling editing of the person's
appearance. By using NeRFs to represent the remaining components, our method is
able to model and synthesize parts with complex geometry and appearance, such
as curly hair and fluffy scarves. Our novel system synthesizes these
high-quality compositional avatars from text descriptions. The experimental
results demonstrate that our method, Text-guided generation and Editing of
Compositional Avatars (TECA), produces avatars that are more realistic than
those of recent methods while being editable because of their compositional
nature. For example, our TECA enables the seamless transfer of compositional
features like hairstyles, scarves, and other accessories between avatars. This
capability supports applications such as virtual try-on.