TaoAvatar: Real-time levensechte full-body sprekende avatars voor augmented reality via 3D Gaussian Splatting
TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting
March 21, 2025
Auteurs: Jianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang, Tiansong Zhou, Zhiwen Chen, Chengfei Lv
cs.AI
Samenvatting
Realistische 3D full-body pratende avatars hebben groot potentieel in AR, met
toepassingen variërend van e-commerce livestreaming tot holografische
communicatie. Ondanks vooruitgang in 3D Gaussian Splatting (3DGS) voor levensechte
avatarcreatie, worstelen bestaande methoden met fijnmazige controle van gezichtsuitdrukkingen
en lichaamsbewegingen in full-body pratende taken. Bovendien bieden ze
vaak onvoldoende details en kunnen ze niet in real-time draaien op mobiele apparaten. Wij
presenteren TaoAvatar, een hoogwaardige, lichtgewicht, 3DGS-gebaseerde full-body pratende
avatar die wordt aangestuurd door diverse signalen. Onze aanpak begint met het creëren van een
gepersonaliseerd gekleed menselijk parametrisch sjabloon dat Gaussians bindt om
uiterlijk te representeren. Vervolgens pre-trainen we een StyleUnet-gebaseerd netwerk om
complexe pose-afhankelijke niet-rigide vervorming te verwerken, wat hoogfrequente
uiterlijkdetails kan vastleggen maar te resource-intensief is voor mobiele apparaten. Om
dit te overwinnen, "bakken" we de niet-rigide vervormingen in een lichtgewicht
MLP-gebaseerd netwerk met behulp van een distillatietechniek en ontwikkelen we blend shapes om
details te compenseren. Uitgebreide experimenten tonen aan dat TaoAvatar state-of-the-art
renderkwaliteit bereikt terwijl het in real-time draait op diverse apparaten, met een
snelheid van 90 FPS op hoogwaardige stereo-apparaten zoals de Apple Vision Pro.
English
Realistic 3D full-body talking avatars hold great potential in AR, with
applications ranging from e-commerce live streaming to holographic
communication. Despite advances in 3D Gaussian Splatting (3DGS) for lifelike
avatar creation, existing methods struggle with fine-grained control of facial
expressions and body movements in full-body talking tasks. Additionally, they
often lack sufficient details and cannot run in real-time on mobile devices. We
present TaoAvatar, a high-fidelity, lightweight, 3DGS-based full-body talking
avatar driven by various signals. Our approach starts by creating a
personalized clothed human parametric template that binds Gaussians to
represent appearances. We then pre-train a StyleUnet-based network to handle
complex pose-dependent non-rigid deformation, which can capture high-frequency
appearance details but is too resource-intensive for mobile devices. To
overcome this, we "bake" the non-rigid deformations into a lightweight
MLP-based network using a distillation technique and develop blend shapes to
compensate for details. Extensive experiments show that TaoAvatar achieves
state-of-the-art rendering quality while running in real-time across various
devices, maintaining 90 FPS on high-definition stereo devices such as the Apple
Vision Pro.Summary
AI-Generated Summary