HeadSculpt: テキストによる3Dヘッドアバターの制作
HeadSculpt: Crafting 3D Head Avatars with Text
June 5, 2023
著者: Xiao Han, Yukang Cao, Kai Han, Xiatian Zhu, Jiankang Deng, Yi-Zhe Song, Tao Xiang, Kwan-Yee K. Wong
cs.AI
要旨
近年、テキストガイド型の3D生成手法は、大規模な視覚言語モデルや画像拡散モデルの普及を背景に、高品質なテクスチャとジオメトリの生成において顕著な進歩を遂げてきました。しかし、既存の手法は、高忠実度の3D頭部アバターの作成において依然として2つの課題に直面しています。(1) これらの手法は主に事前学習済みのテキストから画像への拡散モデルに依存しており、必要な3D認識と頭部の事前知識が欠如しているため、生成されたアバターに一貫性の欠如や幾何学的な歪みが生じやすい。(2) 微細な編集能力が不十分である。これは主に、事前学習済みの2D画像拡散モデルから継承された制限によるもので、3D頭部アバターにおいてより顕著になります。本研究では、これらの課題に対処するため、テキストプロンプトから3D頭部アバターを生成および編集するための多機能な粗から細へのパイプライン「HeadSculpt」を提案します。具体的には、まず、ランドマークベースの制御と頭部の背面視覚外観を表す学習済みテキスト埋め込みを活用して拡散モデルに3D認識を付与し、3D一貫性のある頭部アバター生成を可能にします。さらに、高解像度の微分可能なレンダリング技術を用いてテクスチャ付きメッシュを最適化するための新しいID認識編集スコア蒸留戦略を提案します。これにより、編集指示に従いながらIDを保持することが可能になります。包括的な実験と既存手法との比較を通じて、HeadSculptの優れた忠実度と編集能力を実証します。
English
Recently, text-guided 3D generative methods have made remarkable advancements
in producing high-quality textures and geometry, capitalizing on the
proliferation of large vision-language and image diffusion models. However,
existing methods still struggle to create high-fidelity 3D head avatars in two
aspects: (1) They rely mostly on a pre-trained text-to-image diffusion model
whilst missing the necessary 3D awareness and head priors. This makes them
prone to inconsistency and geometric distortions in the generated avatars. (2)
They fall short in fine-grained editing. This is primarily due to the inherited
limitations from the pre-trained 2D image diffusion models, which become more
pronounced when it comes to 3D head avatars. In this work, we address these
challenges by introducing a versatile coarse-to-fine pipeline dubbed HeadSculpt
for crafting (i.e., generating and editing) 3D head avatars from textual
prompts. Specifically, we first equip the diffusion model with 3D awareness by
leveraging landmark-based control and a learned textual embedding representing
the back view appearance of heads, enabling 3D-consistent head avatar
generations. We further propose a novel identity-aware editing score
distillation strategy to optimize a textured mesh with a high-resolution
differentiable rendering technique. This enables identity preservation while
following the editing instruction. We showcase HeadSculpt's superior fidelity
and editing capabilities through comprehensive experiments and comparisons with
existing methods.