ChatPaper.aiChatPaper

HeadStudio: 3Dガウススプラッティングを用いたテキストからアニメーション可能な頭部アバター生成

HeadStudio: Text to Animatable Head Avatars with 3D Gaussian Splatting

February 9, 2024
著者: Zhenglin Zhou, Fan Ma, Hehe Fan, Yi Yang
cs.AI

要旨

テキストプロンプトからデジタルアバターを作成することは、長らく望まれてきたものの困難な課題でした。近年の2D拡散モデルを用いた研究では有望な結果が得られているものの、現在の手法では高品質でアニメーション可能なアバターを効果的に生成することに課題を抱えています。本論文では、3Dガウシアンスプラッティングを活用してテキストプロンプトから現実的でアニメーション可能なアバターを生成する新しいフレームワーク「HeadStudio」を提案します。本手法は、中間表現としてFLAMEを用いることで、3Dガウシアンを意味的に駆動し、柔軟で実現可能な外観を実現します。具体的には、FLAMEを3D表現とスコア蒸留の両方に組み込みます:1) FLAMEベースの3Dガウシアンスプラッティングでは、各ガウシアンポイントをFLAMEメッシュにリギングすることで3Dガウシアンポイントを駆動します。2) FLAMEベースのスコア蒸留サンプリングでは、FLAMEに基づく細粒度の制御信号を用いて、テキストプロンプトからのスコア蒸留をガイドします。大規模な実験により、HeadStudioがテキストプロンプトからアニメーション可能なアバターを生成する有効性が示され、視覚的に魅力的な外観を実現することが確認されました。生成されたアバターは、1024の解像度で高品質なリアルタイム(40 fps以上)の新規ビューをレンダリング可能であり、現実世界の音声や映像によって滑らかに制御できます。我々は、HeadStudioがデジタルアバター作成を進展させ、本手法が様々な分野で広く応用されることを期待しています。
English
Creating digital avatars from textual prompts has long been a desirable yet challenging task. Despite the promising outcomes obtained through 2D diffusion priors in recent works, current methods face challenges in achieving high-quality and animated avatars effectively. In this paper, we present HeadStudio, a novel framework that utilizes 3D Gaussian splatting to generate realistic and animated avatars from text prompts. Our method drives 3D Gaussians semantically to create a flexible and achievable appearance through the intermediate FLAME representation. Specifically, we incorporate the FLAME into both 3D representation and score distillation: 1) FLAME-based 3D Gaussian splatting, driving 3D Gaussian points by rigging each point to a FLAME mesh. 2) FLAME-based score distillation sampling, utilizing FLAME-based fine-grained control signal to guide score distillation from the text prompt. Extensive experiments demonstrate the efficacy of HeadStudio in generating animatable avatars from textual prompts, exhibiting visually appealing appearances. The avatars are capable of rendering high-quality real-time (geq 40 fps) novel views at a resolution of 1024. They can be smoothly controlled by real-world speech and video. We hope that HeadStudio can advance digital avatar creation and that the present method can widely be applied across various domains.
PDF182December 15, 2024