ChatPaper.aiChatPaper

TaoAvatar: Реалистичные аватары с полным телом для дополненной реальности в реальном времени с использованием 3D-гауссовского сплайтинга

TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting

March 21, 2025
Авторы: Jianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang, Tiansong Zhou, Zhiwen Chen, Chengfei Lv
cs.AI

Аннотация

Реалистичные 3D-аватары с полным телом, способные говорить, обладают огромным потенциалом в дополненной реальности (AR), с приложениями, начиная от прямых трансляций в электронной коммерции до голографической коммуникации. Несмотря на прогресс в технологии 3D Gaussian Splatting (3DGS) для создания реалистичных аватаров, существующие методы сталкиваются с трудностями в тонком управлении мимикой и движениями тела в задачах, связанных с полным телом. Кроме того, они часто недостаточно детализированы и не могут работать в реальном времени на мобильных устройствах. Мы представляем TaoAvatar — высококачественный, легковесный 3DGS-аватар с полным телом, управляемый различными сигналами. Наш подход начинается с создания персонализированного параметрического шаблона одетого человека, который связывает гауссовы распределения для представления внешнего вида. Затем мы предварительно обучаем сеть на основе StyleUnet для обработки сложных нежестких деформаций, зависящих от позы, что позволяет захватывать высокочастотные детали внешнего вида, но требует слишком много ресурсов для мобильных устройств. Чтобы преодолеть это, мы "запекаем" нежесткие деформации в легковесную сеть на основе MLP с использованием техники дистилляции и разрабатываем blend shapes для компенсации деталей. Многочисленные эксперименты показывают, что TaoAvatar достигает наивысшего качества рендеринга, работая в реальном времени на различных устройствах, поддерживая 90 кадров в секунду на устройствах с высоким разрешением, таких как Apple Vision Pro.
English
Realistic 3D full-body talking avatars hold great potential in AR, with applications ranging from e-commerce live streaming to holographic communication. Despite advances in 3D Gaussian Splatting (3DGS) for lifelike avatar creation, existing methods struggle with fine-grained control of facial expressions and body movements in full-body talking tasks. Additionally, they often lack sufficient details and cannot run in real-time on mobile devices. We present TaoAvatar, a high-fidelity, lightweight, 3DGS-based full-body talking avatar driven by various signals. Our approach starts by creating a personalized clothed human parametric template that binds Gaussians to represent appearances. We then pre-train a StyleUnet-based network to handle complex pose-dependent non-rigid deformation, which can capture high-frequency appearance details but is too resource-intensive for mobile devices. To overcome this, we "bake" the non-rigid deformations into a lightweight MLP-based network using a distillation technique and develop blend shapes to compensate for details. Extensive experiments show that TaoAvatar achieves state-of-the-art rendering quality while running in real-time across various devices, maintaining 90 FPS on high-definition stereo devices such as the Apple Vision Pro.

Summary

AI-Generated Summary

PDF263March 24, 2025