TaoAvatar: 3Dガウススプラッティングによる拡張現実のためのリアルタイム高精細全身アバター
TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting
March 21, 2025
著者: Jianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang, Tiansong Zhou, Zhiwen Chen, Chengfei Lv
cs.AI
要旨
現実的な3D全身会話アバターはAR分野において大きな可能性を秘めており、eコマースライブストリーミングからホログラフィック通信まで幅広い応用が期待されています。3Dガウススプラッティング(3DGS)を用いたリアルなアバター作成技術は進歩しているものの、既存の手法では全身会話タスクにおける表情や身体動作の細かな制御に課題を抱えています。さらに、十分なディテールを保持できず、モバイルデバイスでのリアルタイム実行も困難です。本論文では、TaoAvatarを提案します。これは、高精細かつ軽量な3DGSベースの全身会話アバターで、様々な信号によって駆動されます。私たちのアプローチでは、まず、ガウシアンをバインドして外観を表現するためのパーソナライズされた衣服付き人体パラメトリックテンプレートを作成します。次に、複雑なポーズ依存の非剛体変形を処理するためにStyleUnetベースのネットワークを事前学習します。このネットワークは高周波の外観ディテールを捉えることができますが、モバイルデバイスではリソースが過剰になります。この問題を解決するために、蒸留技術を用いて非剛体変形を軽量なMLPベースのネットワークに「焼き付け」、ディテールを補うためのブレンドシェイプを開発します。大規模な実験により、TaoAvatarが最先端のレンダリング品質を達成しつつ、様々なデバイスでリアルタイムに動作し、Apple Vision Proのような高精細ステレオデバイス上で90 FPSを維持することが示されました。
English
Realistic 3D full-body talking avatars hold great potential in AR, with
applications ranging from e-commerce live streaming to holographic
communication. Despite advances in 3D Gaussian Splatting (3DGS) for lifelike
avatar creation, existing methods struggle with fine-grained control of facial
expressions and body movements in full-body talking tasks. Additionally, they
often lack sufficient details and cannot run in real-time on mobile devices. We
present TaoAvatar, a high-fidelity, lightweight, 3DGS-based full-body talking
avatar driven by various signals. Our approach starts by creating a
personalized clothed human parametric template that binds Gaussians to
represent appearances. We then pre-train a StyleUnet-based network to handle
complex pose-dependent non-rigid deformation, which can capture high-frequency
appearance details but is too resource-intensive for mobile devices. To
overcome this, we "bake" the non-rigid deformations into a lightweight
MLP-based network using a distillation technique and develop blend shapes to
compensate for details. Extensive experiments show that TaoAvatar achieves
state-of-the-art rendering quality while running in real-time across various
devices, maintaining 90 FPS on high-definition stereo devices such as the Apple
Vision Pro.Summary
AI-Generated Summary