Avatar 3D Gaussien Expressif pour le Corps Entier
Expressive Whole-Body 3D Gaussian Avatar
July 31, 2024
Auteurs: Gyeongsik Moon, Takaaki Shiratori, Shunsuke Saito
cs.AI
Résumé
Les expressions faciales et les mouvements des mains sont essentiels pour exprimer nos émotions et interagir avec le monde. Cependant, la plupart des avatars humains 3D modélisés à partir d'une vidéo capturée de manière informelle ne prennent en charge que les mouvements du corps, sans inclure les expressions faciales ni les mouvements des mains. Dans ce travail, nous présentons ExAvatar, un avatar humain 3D complet et expressif appris à partir d'une courte vidéo monoculaire. Nous concevons ExAvatar comme une combinaison du modèle de maillage paramétrique complet du corps (SMPL-X) et du lissage par Gaussiennes 3D (3DGS). Les principaux défis sont 1) une diversité limitée des expressions faciales et des poses dans la vidéo et 2) l'absence d'observations 3D, telles que des scans 3D et des images RGBD. La diversité limitée dans la vidéo rend les animations avec de nouvelles expressions faciales et poses non triviales. De plus, l'absence d'observations 3D pourrait entraîner une ambiguïté significative dans les parties du corps humain non observées dans la vidéo, ce qui peut provoquer des artefacts visibles sous de nouveaux mouvements. Pour y remédier, nous introduisons notre représentation hybride du maillage et des Gaussiennes 3D. Notre représentation hybride traite chaque Gaussienne 3D comme un sommet sur la surface avec des informations de connectivité prédéfinies (c'est-à-dire des faces triangulaires) entre elles, suivant la topologie de maillage de SMPL-X. Cela rend notre ExAvatar animable avec de nouvelles expressions faciales en étant piloté par l'espace des expressions faciales de SMPL-X. De plus, en utilisant des régularisateurs basés sur la connectivité, nous réduisons considérablement les artefacts dans les nouvelles expressions faciales et poses.
English
Facial expression and hand motions are necessary to express our emotions and
interact with the world. Nevertheless, most of the 3D human avatars modeled
from a casually captured video only support body motions without facial
expressions and hand motions.In this work, we present ExAvatar, an expressive
whole-body 3D human avatar learned from a short monocular video. We design
ExAvatar as a combination of the whole-body parametric mesh model (SMPL-X) and
3D Gaussian Splatting (3DGS). The main challenges are 1) a limited diversity of
facial expressions and poses in the video and 2) the absence of 3D
observations, such as 3D scans and RGBD images. The limited diversity in the
video makes animations with novel facial expressions and poses non-trivial. In
addition, the absence of 3D observations could cause significant ambiguity in
human parts that are not observed in the video, which can result in noticeable
artifacts under novel motions. To address them, we introduce our hybrid
representation of the mesh and 3D Gaussians. Our hybrid representation treats
each 3D Gaussian as a vertex on the surface with pre-defined connectivity
information (i.e., triangle faces) between them following the mesh topology of
SMPL-X. It makes our ExAvatar animatable with novel facial expressions by
driven by the facial expression space of SMPL-X. In addition, by using
connectivity-based regularizers, we significantly reduce artifacts in novel
facial expressions and poses.Summary
AI-Generated Summary