ChatPaper.aiChatPaper

TaoAvatar: Avatares Corporales Completos y Realistas en Tiempo Real para Realidad Aumentada mediante Splatting Gaussiano 3D

TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting

March 21, 2025
Autores: Jianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang, Tiansong Zhou, Zhiwen Chen, Chengfei Lv
cs.AI

Resumen

Los avatares realistas 3D de cuerpo completo con capacidad de habla tienen un gran potencial en la realidad aumentada (AR), con aplicaciones que van desde transmisiones en vivo de comercio electrónico hasta comunicación holográfica. A pesar de los avances en la técnica de 3D Gaussian Splatting (3DGS) para la creación de avatares realistas, los métodos existentes enfrentan dificultades para controlar de manera precisa las expresiones faciales y los movimientos corporales en tareas de habla de cuerpo completo. Además, a menudo carecen de detalles suficientes y no pueden ejecutarse en tiempo real en dispositivos móviles. Presentamos TaoAvatar, un avatar de cuerpo completo basado en 3DGS, de alta fidelidad y ligero, impulsado por diversas señales. Nuestro enfoque comienza con la creación de una plantilla paramétrica personalizada de un humano vestido que vincula los Gaussianos para representar las apariencias. Luego, preentrenamos una red basada en StyleUnet para manejar deformaciones no rígidas dependientes de la postura, que pueden capturar detalles de apariencia de alta frecuencia pero que son demasiado intensivas en recursos para dispositivos móviles. Para superar esto, "horneamos" las deformaciones no rígidas en una red ligera basada en MLP utilizando una técnica de destilación y desarrollamos formas de mezcla para compensar los detalles. Experimentos extensos muestran que TaoAvatar logra una calidad de renderizado de vanguardia mientras se ejecuta en tiempo real en diversos dispositivos, manteniendo 90 FPS en dispositivos estéreo de alta definición como el Apple Vision Pro.
English
Realistic 3D full-body talking avatars hold great potential in AR, with applications ranging from e-commerce live streaming to holographic communication. Despite advances in 3D Gaussian Splatting (3DGS) for lifelike avatar creation, existing methods struggle with fine-grained control of facial expressions and body movements in full-body talking tasks. Additionally, they often lack sufficient details and cannot run in real-time on mobile devices. We present TaoAvatar, a high-fidelity, lightweight, 3DGS-based full-body talking avatar driven by various signals. Our approach starts by creating a personalized clothed human parametric template that binds Gaussians to represent appearances. We then pre-train a StyleUnet-based network to handle complex pose-dependent non-rigid deformation, which can capture high-frequency appearance details but is too resource-intensive for mobile devices. To overcome this, we "bake" the non-rigid deformations into a lightweight MLP-based network using a distillation technique and develop blend shapes to compensate for details. Extensive experiments show that TaoAvatar achieves state-of-the-art rendering quality while running in real-time across various devices, maintaining 90 FPS on high-definition stereo devices such as the Apple Vision Pro.

Summary

AI-Generated Summary

PDF263March 24, 2025