TaoAvatar: Avatares Corporais Completos Realistas em Tempo Real para Realidade Aumentada via Splatting Gaussiano 3D

Resumo

Avatares 3D realistas de corpo inteiro com capacidade de fala possuem grande potencial em RA, com aplicações que variam de transmissões ao vivo de e-commerce a comunicação holográfica. Apesar dos avanços no uso de 3D Gaussian Splatting (3DGS) para a criação de avatares realistas, os métodos existentes enfrentam dificuldades no controle refinado de expressões faciais e movimentos corporais em tarefas de fala de corpo inteiro. Além disso, eles frequentemente carecem de detalhes suficientes e não conseguem operar em tempo real em dispositivos móveis. Apresentamos o TaoAvatar, um avatar de corpo inteiro baseado em 3DGS, de alta fidelidade e leve, impulsionado por diversos sinais. Nossa abordagem começa com a criação de um modelo paramétrico personalizado de humano vestido que vincula Gaussianas para representar aparências. Em seguida, pré-treinamos uma rede baseada em StyleUnet para lidar com deformações não rígidas complexas dependentes de pose, que pode capturar detalhes de aparência de alta frequência, mas é muito intensiva em recursos para dispositivos móveis. Para superar isso, "assamos" as deformações não rígidas em uma rede leve baseada em MLP usando uma técnica de destilação e desenvolvemos blend shapes para compensar os detalhes. Experimentos extensivos mostram que o TaoAvatar alcança qualidade de renderização de ponta enquanto opera em tempo real em diversos dispositivos, mantendo 90 FPS em dispositivos estereoscópicos de alta definição, como o Apple Vision Pro.

English

Realistic 3D full-body talking avatars hold great potential in AR, with applications ranging from e-commerce live streaming to holographic communication. Despite advances in 3D Gaussian Splatting (3DGS) for lifelike avatar creation, existing methods struggle with fine-grained control of facial expressions and body movements in full-body talking tasks. Additionally, they often lack sufficient details and cannot run in real-time on mobile devices. We present TaoAvatar, a high-fidelity, lightweight, 3DGS-based full-body talking avatar driven by various signals. Our approach starts by creating a personalized clothed human parametric template that binds Gaussians to represent appearances. We then pre-train a StyleUnet-based network to handle complex pose-dependent non-rigid deformation, which can capture high-frequency appearance details but is too resource-intensive for mobile devices. To overcome this, we "bake" the non-rigid deformations into a lightweight MLP-based network using a distillation technique and develop blend shapes to compensate for details. Extensive experiments show that TaoAvatar achieves state-of-the-art rendering quality while running in real-time across various devices, maintaining 90 FPS on high-definition stereo devices such as the Apple Vision Pro.

TaoAvatar: Avatares Corporais Completos Realistas em Tempo Real para Realidade Aumentada via Splatting Gaussiano 3D

TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting

Resumo

Support