TaoAvatar : Avatars corporels parlants en temps réel et ultra-réalistes pour la réalité augmentée via le rendu par splatting de Gaussiennes 3D

papers.abstract

Les avatars 3D réalistes en corps entier dotés de la parole présentent un grand potentiel dans la réalité augmentée, avec des applications allant du streaming en direct pour l'e-commerce à la communication holographique. Malgré les avancées dans le domaine du 3D Gaussian Splatting (3DGS) pour la création d'avatars réalistes, les méthodes existantes peinent à offrir un contrôle précis des expressions faciales et des mouvements corporels dans les tâches de parole en corps entier. De plus, elles manquent souvent de détails suffisants et ne peuvent pas fonctionner en temps réel sur les appareils mobiles. Nous présentons TaoAvatar, un avatar parlant en corps entier basé sur le 3DGS, à haute fidélité et léger, piloté par divers signaux. Notre approche commence par la création d'un modèle paramétrique humain habillé personnalisé qui lie les Gaussiennes pour représenter les apparences. Nous pré-entraînons ensuite un réseau basé sur StyleUnet pour gérer les déformations non rigides complexes dépendantes de la pose, capable de capturer des détails d'apparence à haute fréquence mais trop gourmand en ressources pour les appareils mobiles. Pour surmonter cela, nous "cuisons" les déformations non rigides dans un réseau léger basé sur MLP en utilisant une technique de distillation et développons des blend shapes pour compenser les détails. Des expériences approfondies montrent que TaoAvatar atteint une qualité de rendu de pointe tout en fonctionnant en temps réel sur divers appareils, maintenant 90 FPS sur des dispositifs stéréo haute définition tels que l'Apple Vision Pro.

English

Realistic 3D full-body talking avatars hold great potential in AR, with applications ranging from e-commerce live streaming to holographic communication. Despite advances in 3D Gaussian Splatting (3DGS) for lifelike avatar creation, existing methods struggle with fine-grained control of facial expressions and body movements in full-body talking tasks. Additionally, they often lack sufficient details and cannot run in real-time on mobile devices. We present TaoAvatar, a high-fidelity, lightweight, 3DGS-based full-body talking avatar driven by various signals. Our approach starts by creating a personalized clothed human parametric template that binds Gaussians to represent appearances. We then pre-train a StyleUnet-based network to handle complex pose-dependent non-rigid deformation, which can capture high-frequency appearance details but is too resource-intensive for mobile devices. To overcome this, we "bake" the non-rigid deformations into a lightweight MLP-based network using a distillation technique and develop blend shapes to compensate for details. Extensive experiments show that TaoAvatar achieves state-of-the-art rendering quality while running in real-time across various devices, maintaining 90 FPS on high-definition stereo devices such as the Apple Vision Pro.

TaoAvatar : Avatars corporels parlants en temps réel et ultra-réalistes pour la réalité augmentée via le rendu par splatting de Gaussiennes 3D

TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting

papers.abstract

Support