TaoAvatar: Реалистичные аватары с полным телом для дополненной реальности в реальном времени с использованием 3D-гауссовского сплайтинга
TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting
March 21, 2025
Авторы: Jianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang, Tiansong Zhou, Zhiwen Chen, Chengfei Lv
cs.AI
Аннотация
Реалистичные 3D-аватары с полным телом, способные говорить, обладают огромным потенциалом в дополненной реальности (AR), с приложениями, начиная от прямых трансляций в электронной коммерции до голографической коммуникации. Несмотря на прогресс в технологии 3D Gaussian Splatting (3DGS) для создания реалистичных аватаров, существующие методы сталкиваются с трудностями в тонком управлении мимикой и движениями тела в задачах, связанных с полным телом. Кроме того, они часто недостаточно детализированы и не могут работать в реальном времени на мобильных устройствах. Мы представляем TaoAvatar — высококачественный, легковесный 3DGS-аватар с полным телом, управляемый различными сигналами. Наш подход начинается с создания персонализированного параметрического шаблона одетого человека, который связывает гауссовы распределения для представления внешнего вида. Затем мы предварительно обучаем сеть на основе StyleUnet для обработки сложных нежестких деформаций, зависящих от позы, что позволяет захватывать высокочастотные детали внешнего вида, но требует слишком много ресурсов для мобильных устройств. Чтобы преодолеть это, мы "запекаем" нежесткие деформации в легковесную сеть на основе MLP с использованием техники дистилляции и разрабатываем blend shapes для компенсации деталей. Многочисленные эксперименты показывают, что TaoAvatar достигает наивысшего качества рендеринга, работая в реальном времени на различных устройствах, поддерживая 90 кадров в секунду на устройствах с высоким разрешением, таких как Apple Vision Pro.
English
Realistic 3D full-body talking avatars hold great potential in AR, with
applications ranging from e-commerce live streaming to holographic
communication. Despite advances in 3D Gaussian Splatting (3DGS) for lifelike
avatar creation, existing methods struggle with fine-grained control of facial
expressions and body movements in full-body talking tasks. Additionally, they
often lack sufficient details and cannot run in real-time on mobile devices. We
present TaoAvatar, a high-fidelity, lightweight, 3DGS-based full-body talking
avatar driven by various signals. Our approach starts by creating a
personalized clothed human parametric template that binds Gaussians to
represent appearances. We then pre-train a StyleUnet-based network to handle
complex pose-dependent non-rigid deformation, which can capture high-frequency
appearance details but is too resource-intensive for mobile devices. To
overcome this, we "bake" the non-rigid deformations into a lightweight
MLP-based network using a distillation technique and develop blend shapes to
compensate for details. Extensive experiments show that TaoAvatar achieves
state-of-the-art rendering quality while running in real-time across various
devices, maintaining 90 FPS on high-definition stereo devices such as the Apple
Vision Pro.Summary
AI-Generated Summary