テキスト誘導型の構成的3Dアバターの生成と編集
Text-Guided Generation and Editing of Compositional 3D Avatars
September 13, 2023
著者: Hao Zhang, Yao Feng, Peter Kulits, Yandong Wen, Justus Thies, Michael J. Black
cs.AI
要旨
私たちの目標は、テキスト記述のみを用いて、髪やアクセサリーを含むリアルな3D顔面アバターを作成することです。この課題は近年大きな関心を集めていますが、既存の手法はリアリズムに欠けていたり、非現実的な形状を生成したり、ヘアスタイルの変更などの編集をサポートしていないという問題があります。私たちは、既存の手法が限定的である理由として、頭部、顔、髪、アクセサリーを単一の表現でモデル化するモノリシックなアプローチを採用している点を指摘します。例えば、髪と顔は構造的に非常に異なる特性を持っており、異なる表現が有効であると観察しています。この洞察に基づき、私たちは合成モデルを用いてアバターを生成します。このモデルでは、頭部、顔、上半身は従来の3Dメッシュで表現し、髪、衣服、アクセサリーはニューラルラジアンスフィールド(NeRF)で表現します。モデルベースのメッシュ表現は、顔領域に対して強力な幾何学的な事前知識を提供し、リアリズムを向上させると同時に、人物の外見の編集を可能にします。残りのコンポーネントをNeRFで表現することで、私たちの手法は、巻き毛やふわふわしたマフラーなど、複雑な形状と外観を持つ部分をモデル化および合成することができます。私たちの新しいシステムは、これらの高品質な合成アバターをテキスト記述から合成します。実験結果は、私たちの手法「テキストガイドによる合成アバターの生成と編集(TECA)」が、最近の手法よりもリアルなアバターを生成し、その合成性により編集可能であることを示しています。例えば、TECAは、ヘアスタイル、マフラー、その他のアクセサリーなどの合成特徴をアバター間でシームレスに転移することができます。この機能は、仮想試着などのアプリケーションをサポートします。
English
Our goal is to create a realistic 3D facial avatar with hair and accessories
using only a text description. While this challenge has attracted significant
recent interest, existing methods either lack realism, produce unrealistic
shapes, or do not support editing, such as modifications to the hairstyle. We
argue that existing methods are limited because they employ a monolithic
modeling approach, using a single representation for the head, face, hair, and
accessories. Our observation is that the hair and face, for example, have very
different structural qualities that benefit from different representations.
Building on this insight, we generate avatars with a compositional model, in
which the head, face, and upper body are represented with traditional 3D
meshes, and the hair, clothing, and accessories with neural radiance fields
(NeRF). The model-based mesh representation provides a strong geometric prior
for the face region, improving realism while enabling editing of the person's
appearance. By using NeRFs to represent the remaining components, our method is
able to model and synthesize parts with complex geometry and appearance, such
as curly hair and fluffy scarves. Our novel system synthesizes these
high-quality compositional avatars from text descriptions. The experimental
results demonstrate that our method, Text-guided generation and Editing of
Compositional Avatars (TECA), produces avatars that are more realistic than
those of recent methods while being editable because of their compositional
nature. For example, our TECA enables the seamless transfer of compositional
features like hairstyles, scarves, and other accessories between avatars. This
capability supports applications such as virtual try-on.