TaoAvatar: Avatares Corporales Completos y Realistas en Tiempo Real para Realidad Aumentada mediante Splatting Gaussiano 3D
TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting
March 21, 2025
Autores: Jianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang, Tiansong Zhou, Zhiwen Chen, Chengfei Lv
cs.AI
Resumen
Los avatares realistas 3D de cuerpo completo con capacidad de habla tienen un gran potencial en la realidad aumentada (AR), con aplicaciones que van desde transmisiones en vivo de comercio electrónico hasta comunicación holográfica. A pesar de los avances en la técnica de 3D Gaussian Splatting (3DGS) para la creación de avatares realistas, los métodos existentes enfrentan dificultades para controlar de manera precisa las expresiones faciales y los movimientos corporales en tareas de habla de cuerpo completo. Además, a menudo carecen de detalles suficientes y no pueden ejecutarse en tiempo real en dispositivos móviles. Presentamos TaoAvatar, un avatar de cuerpo completo basado en 3DGS, de alta fidelidad y ligero, impulsado por diversas señales. Nuestro enfoque comienza con la creación de una plantilla paramétrica personalizada de un humano vestido que vincula los Gaussianos para representar las apariencias. Luego, preentrenamos una red basada en StyleUnet para manejar deformaciones no rígidas dependientes de la postura, que pueden capturar detalles de apariencia de alta frecuencia pero que son demasiado intensivas en recursos para dispositivos móviles. Para superar esto, "horneamos" las deformaciones no rígidas en una red ligera basada en MLP utilizando una técnica de destilación y desarrollamos formas de mezcla para compensar los detalles. Experimentos extensos muestran que TaoAvatar logra una calidad de renderizado de vanguardia mientras se ejecuta en tiempo real en diversos dispositivos, manteniendo 90 FPS en dispositivos estéreo de alta definición como el Apple Vision Pro.
English
Realistic 3D full-body talking avatars hold great potential in AR, with
applications ranging from e-commerce live streaming to holographic
communication. Despite advances in 3D Gaussian Splatting (3DGS) for lifelike
avatar creation, existing methods struggle with fine-grained control of facial
expressions and body movements in full-body talking tasks. Additionally, they
often lack sufficient details and cannot run in real-time on mobile devices. We
present TaoAvatar, a high-fidelity, lightweight, 3DGS-based full-body talking
avatar driven by various signals. Our approach starts by creating a
personalized clothed human parametric template that binds Gaussians to
represent appearances. We then pre-train a StyleUnet-based network to handle
complex pose-dependent non-rigid deformation, which can capture high-frequency
appearance details but is too resource-intensive for mobile devices. To
overcome this, we "bake" the non-rigid deformations into a lightweight
MLP-based network using a distillation technique and develop blend shapes to
compensate for details. Extensive experiments show that TaoAvatar achieves
state-of-the-art rendering quality while running in real-time across various
devices, maintaining 90 FPS on high-definition stereo devices such as the Apple
Vision Pro.Summary
AI-Generated Summary