TaoAvatar: Avatar Full-Body Realistici in Tempo Reale per la Realtà Aumentata tramite 3D Gaussian Splatting
TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting
March 21, 2025
Autori: Jianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang, Tiansong Zhou, Zhiwen Chen, Chengfei Lv
cs.AI
Abstract
Gli avatar 3D realistici a corpo intero con capacità di parlato presentano un grande potenziale nella realtà aumentata, con applicazioni che spaziano dallo streaming live per l'e-commerce alla comunicazione olografica. Nonostante i progressi nel 3D Gaussian Splatting (3DGS) per la creazione di avatar realistici, i metodi esistenti faticano a ottenere un controllo fine delle espressioni facciali e dei movimenti del corpo nelle attività di parlato a corpo intero. Inoltre, spesso mancano di dettagli sufficienti e non possono funzionare in tempo reale su dispositivi mobili. Presentiamo TaoAvatar, un avatar parlante a corpo intero basato su 3DGS, ad alta fedeltà e leggero, guidato da vari segnali. Il nostro approccio inizia con la creazione di un modello parametrico umano vestito personalizzato che associa le Gaussiane per rappresentare l'aspetto. Successivamente, pre-addestriamo una rete basata su StyleUnet per gestire deformazioni non rigide complesse dipendenti dalla postura, in grado di catturare dettagli ad alta frequenza ma troppo dispendiose in termini di risorse per i dispositivi mobili. Per superare questo limite, "cuociamo" le deformazioni non rigide in una rete leggera basata su MLP utilizzando una tecnica di distillazione e sviluppiamo blend shapes per compensare i dettagli. Esperimenti estensivi dimostrano che TaoAvatar raggiunge una qualità di rendering all'avanguardia funzionando in tempo reale su vari dispositivi, mantenendo 90 FPS su dispositivi stereo ad alta definizione come l'Apple Vision Pro.
English
Realistic 3D full-body talking avatars hold great potential in AR, with
applications ranging from e-commerce live streaming to holographic
communication. Despite advances in 3D Gaussian Splatting (3DGS) for lifelike
avatar creation, existing methods struggle with fine-grained control of facial
expressions and body movements in full-body talking tasks. Additionally, they
often lack sufficient details and cannot run in real-time on mobile devices. We
present TaoAvatar, a high-fidelity, lightweight, 3DGS-based full-body talking
avatar driven by various signals. Our approach starts by creating a
personalized clothed human parametric template that binds Gaussians to
represent appearances. We then pre-train a StyleUnet-based network to handle
complex pose-dependent non-rigid deformation, which can capture high-frequency
appearance details but is too resource-intensive for mobile devices. To
overcome this, we "bake" the non-rigid deformations into a lightweight
MLP-based network using a distillation technique and develop blend shapes to
compensate for details. Extensive experiments show that TaoAvatar achieves
state-of-the-art rendering quality while running in real-time across various
devices, maintaining 90 FPS on high-definition stereo devices such as the Apple
Vision Pro.