HAAR: テキスト条件付き3Dストランドベース人間ヘアスタイル生成モデル
HAAR: Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles
December 18, 2023
著者: Vanessa Sklyarova, Egor Zakharov, Otmar Hilliges, Michael J. Black, Justus Thies
cs.AI
要旨
本論文では、3D人間の髪型のための新しいストランドベース生成モデル「HAAR」を提案する。具体的には、テキスト入力を基に、HAARは現代のコンピュータグラフィックスエンジンでプロダクションレベルのアセットとして使用可能な3D髪型を生成する。現在のAIベースの生成モデルは、強力な2D事前分布を活用して、点群、メッシュ、または体積関数の形で3Dコンテンツを再構築する。しかし、2D事前分布を使用することにより、これらのモデルは本質的に視覚的な部分のみを復元することに限定されている。高度に遮蔽された髪の構造はこれらの方法では再構築できず、それらは「外殻」のみをモデル化するため、物理ベースのレンダリングやシミュレーションパイプラインで使用する準備ができていない。対照的に、我々は3Dヘアストランドを基盤表現として使用する、初のテキスト誘導型生成手法を提案する。2D視覚的質問応答(VQA)システムを活用し、アーティストが作成した少数の髪型から生成された合成髪モデルを自動的に注釈付けする。これにより、共通の髪型UV空間で動作する潜在拡散モデルを訓練することが可能となる。定性的および定量的な研究を通じて、提案モデルの能力を実証し、既存の髪型生成アプローチと比較する。
English
We present HAAR, a new strand-based generative model for 3D human hairstyles.
Specifically, based on textual inputs, HAAR produces 3D hairstyles that could
be used as production-level assets in modern computer graphics engines. Current
AI-based generative models take advantage of powerful 2D priors to reconstruct
3D content in the form of point clouds, meshes, or volumetric functions.
However, by using the 2D priors, they are intrinsically limited to only
recovering the visual parts. Highly occluded hair structures can not be
reconstructed with those methods, and they only model the ''outer shell'',
which is not ready to be used in physics-based rendering or simulation
pipelines. In contrast, we propose a first text-guided generative method that
uses 3D hair strands as an underlying representation. Leveraging 2D visual
question-answering (VQA) systems, we automatically annotate synthetic hair
models that are generated from a small set of artist-created hairstyles. This
allows us to train a latent diffusion model that operates in a common hairstyle
UV space. In qualitative and quantitative studies, we demonstrate the
capabilities of the proposed model and compare it to existing hairstyle
generation approaches.