ChatPaper.aiChatPaper

TaoAvatar: Avatar Full-Body Realistici in Tempo Reale per la Realtà Aumentata tramite 3D Gaussian Splatting

TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting

March 21, 2025
Autori: Jianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang, Tiansong Zhou, Zhiwen Chen, Chengfei Lv
cs.AI

Abstract

Gli avatar 3D realistici a corpo intero con capacità di parlato presentano un grande potenziale nella realtà aumentata, con applicazioni che spaziano dallo streaming live per l'e-commerce alla comunicazione olografica. Nonostante i progressi nel 3D Gaussian Splatting (3DGS) per la creazione di avatar realistici, i metodi esistenti faticano a ottenere un controllo fine delle espressioni facciali e dei movimenti del corpo nelle attività di parlato a corpo intero. Inoltre, spesso mancano di dettagli sufficienti e non possono funzionare in tempo reale su dispositivi mobili. Presentiamo TaoAvatar, un avatar parlante a corpo intero basato su 3DGS, ad alta fedeltà e leggero, guidato da vari segnali. Il nostro approccio inizia con la creazione di un modello parametrico umano vestito personalizzato che associa le Gaussiane per rappresentare l'aspetto. Successivamente, pre-addestriamo una rete basata su StyleUnet per gestire deformazioni non rigide complesse dipendenti dalla postura, in grado di catturare dettagli ad alta frequenza ma troppo dispendiose in termini di risorse per i dispositivi mobili. Per superare questo limite, "cuociamo" le deformazioni non rigide in una rete leggera basata su MLP utilizzando una tecnica di distillazione e sviluppiamo blend shapes per compensare i dettagli. Esperimenti estensivi dimostrano che TaoAvatar raggiunge una qualità di rendering all'avanguardia funzionando in tempo reale su vari dispositivi, mantenendo 90 FPS su dispositivi stereo ad alta definizione come l'Apple Vision Pro.
English
Realistic 3D full-body talking avatars hold great potential in AR, with applications ranging from e-commerce live streaming to holographic communication. Despite advances in 3D Gaussian Splatting (3DGS) for lifelike avatar creation, existing methods struggle with fine-grained control of facial expressions and body movements in full-body talking tasks. Additionally, they often lack sufficient details and cannot run in real-time on mobile devices. We present TaoAvatar, a high-fidelity, lightweight, 3DGS-based full-body talking avatar driven by various signals. Our approach starts by creating a personalized clothed human parametric template that binds Gaussians to represent appearances. We then pre-train a StyleUnet-based network to handle complex pose-dependent non-rigid deformation, which can capture high-frequency appearance details but is too resource-intensive for mobile devices. To overcome this, we "bake" the non-rigid deformations into a lightweight MLP-based network using a distillation technique and develop blend shapes to compensate for details. Extensive experiments show that TaoAvatar achieves state-of-the-art rendering quality while running in real-time across various devices, maintaining 90 FPS on high-definition stereo devices such as the Apple Vision Pro.
PDF263March 24, 2025