ChatPaper.aiChatPaper

TaoAvatar: Real-time levensechte full-body sprekende avatars voor augmented reality via 3D Gaussian Splatting

TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting

March 21, 2025
Auteurs: Jianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang, Tiansong Zhou, Zhiwen Chen, Chengfei Lv
cs.AI

Samenvatting

Realistische 3D full-body pratende avatars hebben groot potentieel in AR, met toepassingen variërend van e-commerce livestreaming tot holografische communicatie. Ondanks vooruitgang in 3D Gaussian Splatting (3DGS) voor levensechte avatarcreatie, worstelen bestaande methoden met fijnmazige controle van gezichtsuitdrukkingen en lichaamsbewegingen in full-body pratende taken. Bovendien bieden ze vaak onvoldoende details en kunnen ze niet in real-time draaien op mobiele apparaten. Wij presenteren TaoAvatar, een hoogwaardige, lichtgewicht, 3DGS-gebaseerde full-body pratende avatar die wordt aangestuurd door diverse signalen. Onze aanpak begint met het creëren van een gepersonaliseerd gekleed menselijk parametrisch sjabloon dat Gaussians bindt om uiterlijk te representeren. Vervolgens pre-trainen we een StyleUnet-gebaseerd netwerk om complexe pose-afhankelijke niet-rigide vervorming te verwerken, wat hoogfrequente uiterlijkdetails kan vastleggen maar te resource-intensief is voor mobiele apparaten. Om dit te overwinnen, "bakken" we de niet-rigide vervormingen in een lichtgewicht MLP-gebaseerd netwerk met behulp van een distillatietechniek en ontwikkelen we blend shapes om details te compenseren. Uitgebreide experimenten tonen aan dat TaoAvatar state-of-the-art renderkwaliteit bereikt terwijl het in real-time draait op diverse apparaten, met een snelheid van 90 FPS op hoogwaardige stereo-apparaten zoals de Apple Vision Pro.
English
Realistic 3D full-body talking avatars hold great potential in AR, with applications ranging from e-commerce live streaming to holographic communication. Despite advances in 3D Gaussian Splatting (3DGS) for lifelike avatar creation, existing methods struggle with fine-grained control of facial expressions and body movements in full-body talking tasks. Additionally, they often lack sufficient details and cannot run in real-time on mobile devices. We present TaoAvatar, a high-fidelity, lightweight, 3DGS-based full-body talking avatar driven by various signals. Our approach starts by creating a personalized clothed human parametric template that binds Gaussians to represent appearances. We then pre-train a StyleUnet-based network to handle complex pose-dependent non-rigid deformation, which can capture high-frequency appearance details but is too resource-intensive for mobile devices. To overcome this, we "bake" the non-rigid deformations into a lightweight MLP-based network using a distillation technique and develop blend shapes to compensate for details. Extensive experiments show that TaoAvatar achieves state-of-the-art rendering quality while running in real-time across various devices, maintaining 90 FPS on high-definition stereo devices such as the Apple Vision Pro.

Summary

AI-Generated Summary

PDF263March 24, 2025