DreamWaltz-G: 骨格ガイド付き2D拡散からの表現豊かな3Dガウスアバター
DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion
September 25, 2024
著者: Yukun Huang, Jianan Wang, Ailing Zeng, Zheng-Jun Zha, Lei Zhang, Xihui Liu
cs.AI
要旨
事前学習済みの2D拡散モデルとスコア蒸留サンプリング(SDS)を活用することで、最近の手法はテキストから3Dアバターを生成する際に有望な結果を示しています。しかし、表現豊かなアニメーションが可能な高品質な3Dアバターを生成することは依然として難しい課題です。本研究では、テキストからアニメーション可能な3Dアバターを生成するための新しい学習フレームワークであるDreamWaltz-Gを提案します。このフレームワークの中核は、スケルトンガイド付きスコア蒸留とハイブリッド3Dガウスアバター表現にあります。具体的には、提案されたスケルトンガイド付きスコア蒸留は、3Dヒューマンテンプレートからのスケルトンコントロールを2D拡散モデルに統合し、視点と人間のポーズの観点からSDS監督の一貫性を高めます。これにより、高品質なアバターの生成が容易になり、複数の顔、余分な肢、ぼやけなどの問題が軽減されます。提案されたハイブリッド3Dガウスアバター表現は、効率的な3Dガウス関数に基づき、ニューラル暗黙の領域とパラメータ化された3Dメッシュを組み合わせることで、リアルタイムのレンダリング、安定したSDS最適化、表現豊かなアニメーションを実現します。幅広い実験により、DreamWaltz-Gが3Dアバターの生成とアニメーションにおいて非常に効果的であり、視覚的品質とアニメーション表現力の両方で既存の手法を上回っていることが示されました。さらに、当フレームワークは、人間のビデオ再現や複数主体のシーン構成など、多様なアプリケーションをサポートしています。
English
Leveraging pretrained 2D diffusion models and score distillation sampling
(SDS), recent methods have shown promising results for text-to-3D avatar
generation. However, generating high-quality 3D avatars capable of expressive
animation remains challenging. In this work, we present DreamWaltz-G, a novel
learning framework for animatable 3D avatar generation from text. The core of
this framework lies in Skeleton-guided Score Distillation and Hybrid 3D
Gaussian Avatar representation. Specifically, the proposed skeleton-guided
score distillation integrates skeleton controls from 3D human templates into 2D
diffusion models, enhancing the consistency of SDS supervision in terms of view
and human pose. This facilitates the generation of high-quality avatars,
mitigating issues such as multiple faces, extra limbs, and blurring. The
proposed hybrid 3D Gaussian avatar representation builds on the efficient 3D
Gaussians, combining neural implicit fields and parameterized 3D meshes to
enable real-time rendering, stable SDS optimization, and expressive animation.
Extensive experiments demonstrate that DreamWaltz-G is highly effective in
generating and animating 3D avatars, outperforming existing methods in both
visual quality and animation expressiveness. Our framework further supports
diverse applications, including human video reenactment and multi-subject scene
composition.Summary
AI-Generated Summary