ChatPaper.aiChatPaper

Avatar 3D Gaussien Expressif pour le Corps Entier

Expressive Whole-Body 3D Gaussian Avatar

July 31, 2024
Auteurs: Gyeongsik Moon, Takaaki Shiratori, Shunsuke Saito
cs.AI

Résumé

Les expressions faciales et les mouvements des mains sont essentiels pour exprimer nos émotions et interagir avec le monde. Cependant, la plupart des avatars humains 3D modélisés à partir d'une vidéo capturée de manière informelle ne prennent en charge que les mouvements du corps, sans inclure les expressions faciales ni les mouvements des mains. Dans ce travail, nous présentons ExAvatar, un avatar humain 3D complet et expressif appris à partir d'une courte vidéo monoculaire. Nous concevons ExAvatar comme une combinaison du modèle de maillage paramétrique complet du corps (SMPL-X) et du lissage par Gaussiennes 3D (3DGS). Les principaux défis sont 1) une diversité limitée des expressions faciales et des poses dans la vidéo et 2) l'absence d'observations 3D, telles que des scans 3D et des images RGBD. La diversité limitée dans la vidéo rend les animations avec de nouvelles expressions faciales et poses non triviales. De plus, l'absence d'observations 3D pourrait entraîner une ambiguïté significative dans les parties du corps humain non observées dans la vidéo, ce qui peut provoquer des artefacts visibles sous de nouveaux mouvements. Pour y remédier, nous introduisons notre représentation hybride du maillage et des Gaussiennes 3D. Notre représentation hybride traite chaque Gaussienne 3D comme un sommet sur la surface avec des informations de connectivité prédéfinies (c'est-à-dire des faces triangulaires) entre elles, suivant la topologie de maillage de SMPL-X. Cela rend notre ExAvatar animable avec de nouvelles expressions faciales en étant piloté par l'espace des expressions faciales de SMPL-X. De plus, en utilisant des régularisateurs basés sur la connectivité, nous réduisons considérablement les artefacts dans les nouvelles expressions faciales et poses.
English
Facial expression and hand motions are necessary to express our emotions and interact with the world. Nevertheless, most of the 3D human avatars modeled from a casually captured video only support body motions without facial expressions and hand motions.In this work, we present ExAvatar, an expressive whole-body 3D human avatar learned from a short monocular video. We design ExAvatar as a combination of the whole-body parametric mesh model (SMPL-X) and 3D Gaussian Splatting (3DGS). The main challenges are 1) a limited diversity of facial expressions and poses in the video and 2) the absence of 3D observations, such as 3D scans and RGBD images. The limited diversity in the video makes animations with novel facial expressions and poses non-trivial. In addition, the absence of 3D observations could cause significant ambiguity in human parts that are not observed in the video, which can result in noticeable artifacts under novel motions. To address them, we introduce our hybrid representation of the mesh and 3D Gaussians. Our hybrid representation treats each 3D Gaussian as a vertex on the surface with pre-defined connectivity information (i.e., triangle faces) between them following the mesh topology of SMPL-X. It makes our ExAvatar animatable with novel facial expressions by driven by the facial expression space of SMPL-X. In addition, by using connectivity-based regularizers, we significantly reduce artifacts in novel facial expressions and poses.

Summary

AI-Generated Summary

PDF82November 28, 2024