TaoAvatar: Avatares Corporais Completos Realistas em Tempo Real para Realidade Aumentada via Splatting Gaussiano 3D
TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting
March 21, 2025
Autores: Jianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang, Tiansong Zhou, Zhiwen Chen, Chengfei Lv
cs.AI
Resumo
Avatares 3D realistas de corpo inteiro com capacidade de fala possuem grande potencial em RA, com aplicações que variam de transmissões ao vivo de e-commerce a comunicação holográfica. Apesar dos avanços no uso de 3D Gaussian Splatting (3DGS) para a criação de avatares realistas, os métodos existentes enfrentam dificuldades no controle refinado de expressões faciais e movimentos corporais em tarefas de fala de corpo inteiro. Além disso, eles frequentemente carecem de detalhes suficientes e não conseguem operar em tempo real em dispositivos móveis. Apresentamos o TaoAvatar, um avatar de corpo inteiro baseado em 3DGS, de alta fidelidade e leve, impulsionado por diversos sinais. Nossa abordagem começa com a criação de um modelo paramétrico personalizado de humano vestido que vincula Gaussianas para representar aparências. Em seguida, pré-treinamos uma rede baseada em StyleUnet para lidar com deformações não rígidas complexas dependentes de pose, que pode capturar detalhes de aparência de alta frequência, mas é muito intensiva em recursos para dispositivos móveis. Para superar isso, "assamos" as deformações não rígidas em uma rede leve baseada em MLP usando uma técnica de destilação e desenvolvemos blend shapes para compensar os detalhes. Experimentos extensivos mostram que o TaoAvatar alcança qualidade de renderização de ponta enquanto opera em tempo real em diversos dispositivos, mantendo 90 FPS em dispositivos estereoscópicos de alta definição, como o Apple Vision Pro.
English
Realistic 3D full-body talking avatars hold great potential in AR, with
applications ranging from e-commerce live streaming to holographic
communication. Despite advances in 3D Gaussian Splatting (3DGS) for lifelike
avatar creation, existing methods struggle with fine-grained control of facial
expressions and body movements in full-body talking tasks. Additionally, they
often lack sufficient details and cannot run in real-time on mobile devices. We
present TaoAvatar, a high-fidelity, lightweight, 3DGS-based full-body talking
avatar driven by various signals. Our approach starts by creating a
personalized clothed human parametric template that binds Gaussians to
represent appearances. We then pre-train a StyleUnet-based network to handle
complex pose-dependent non-rigid deformation, which can capture high-frequency
appearance details but is too resource-intensive for mobile devices. To
overcome this, we "bake" the non-rigid deformations into a lightweight
MLP-based network using a distillation technique and develop blend shapes to
compensate for details. Extensive experiments show that TaoAvatar achieves
state-of-the-art rendering quality while running in real-time across various
devices, maintaining 90 FPS on high-definition stereo devices such as the Apple
Vision Pro.Summary
AI-Generated Summary