TaoAvatar : Avatars corporels parlants en temps réel et ultra-réalistes pour la réalité augmentée via le rendu par splatting de Gaussiennes 3D
TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting
March 21, 2025
Auteurs: Jianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang, Tiansong Zhou, Zhiwen Chen, Chengfei Lv
cs.AI
Résumé
Les avatars 3D réalistes en corps entier dotés de la parole présentent un grand potentiel dans la réalité augmentée, avec des applications allant du streaming en direct pour l'e-commerce à la communication holographique. Malgré les avancées dans le domaine du 3D Gaussian Splatting (3DGS) pour la création d'avatars réalistes, les méthodes existantes peinent à offrir un contrôle précis des expressions faciales et des mouvements corporels dans les tâches de parole en corps entier. De plus, elles manquent souvent de détails suffisants et ne peuvent pas fonctionner en temps réel sur les appareils mobiles. Nous présentons TaoAvatar, un avatar parlant en corps entier basé sur le 3DGS, à haute fidélité et léger, piloté par divers signaux. Notre approche commence par la création d'un modèle paramétrique humain habillé personnalisé qui lie les Gaussiennes pour représenter les apparences. Nous pré-entraînons ensuite un réseau basé sur StyleUnet pour gérer les déformations non rigides complexes dépendantes de la pose, capable de capturer des détails d'apparence à haute fréquence mais trop gourmand en ressources pour les appareils mobiles. Pour surmonter cela, nous "cuisons" les déformations non rigides dans un réseau léger basé sur MLP en utilisant une technique de distillation et développons des blend shapes pour compenser les détails. Des expériences approfondies montrent que TaoAvatar atteint une qualité de rendu de pointe tout en fonctionnant en temps réel sur divers appareils, maintenant 90 FPS sur des dispositifs stéréo haute définition tels que l'Apple Vision Pro.
English
Realistic 3D full-body talking avatars hold great potential in AR, with
applications ranging from e-commerce live streaming to holographic
communication. Despite advances in 3D Gaussian Splatting (3DGS) for lifelike
avatar creation, existing methods struggle with fine-grained control of facial
expressions and body movements in full-body talking tasks. Additionally, they
often lack sufficient details and cannot run in real-time on mobile devices. We
present TaoAvatar, a high-fidelity, lightweight, 3DGS-based full-body talking
avatar driven by various signals. Our approach starts by creating a
personalized clothed human parametric template that binds Gaussians to
represent appearances. We then pre-train a StyleUnet-based network to handle
complex pose-dependent non-rigid deformation, which can capture high-frequency
appearance details but is too resource-intensive for mobile devices. To
overcome this, we "bake" the non-rigid deformations into a lightweight
MLP-based network using a distillation technique and develop blend shapes to
compensate for details. Extensive experiments show that TaoAvatar achieves
state-of-the-art rendering quality while running in real-time across various
devices, maintaining 90 FPS on high-definition stereo devices such as the Apple
Vision Pro.Summary
AI-Generated Summary