Expressief Volledig Lichaam 3D Gaussian Avatar
Expressive Whole-Body 3D Gaussian Avatar
July 31, 2024
Auteurs: Gyeongsik Moon, Takaaki Shiratori, Shunsuke Saito
cs.AI
Samenvatting
Gezichtsuitdrukkingen en handbewegingen zijn essentieel om onze emoties uit te drukken en te interacteren met de wereld. Desondanks ondersteunen de meeste 3D-menselijke avatars die gemodelleerd zijn vanuit een casual opgenomen video alleen lichaamsbewegingen zonder gezichtsuitdrukkingen en handbewegingen. In dit werk presenteren we ExAvatar, een expressieve 3D-menselijke avatar voor het hele lichaam, geleerd vanuit een korte monoscopische video. We ontwerpen ExAvatar als een combinatie van het parametrische mesh-model voor het hele lichaam (SMPL-X) en 3D Gaussian Splatting (3DGS). De belangrijkste uitdagingen zijn 1) een beperkte diversiteit aan gezichtsuitdrukkingen en poses in de video en 2) de afwezigheid van 3D-waarnemingen, zoals 3D-scans en RGBD-beelden. De beperkte diversiteit in de video maakt animaties met nieuwe gezichtsuitdrukkingen en poses niet-triviaal. Bovendien kan de afwezigheid van 3D-waarnemingen leiden tot aanzienlijke ambiguïteit in menselijke delen die niet worden waargenomen in de video, wat merkbare artefacten kan veroorzaken onder nieuwe bewegingen. Om deze problemen aan te pakken, introduceren we onze hybride representatie van het mesh en 3D Gaussians. Onze hybride representatie behandelt elke 3D Gaussian als een vertex op het oppervlak met vooraf gedefinieerde connectiviteitsinformatie (driehoekige vlakken) tussen hen, volgens de mesh-topologie van SMPL-X. Dit maakt onze ExAvatar animeerbaar met nieuwe gezichtsuitdrukkingen door deze aan te sturen via de gezichtsuitdrukkingsruimte van SMPL-X. Daarnaast verminderen we door het gebruik van connectiviteitsgebaseerde regularizers aanzienlijk artefacten in nieuwe gezichtsuitdrukkingen en poses.
English
Facial expression and hand motions are necessary to express our emotions and
interact with the world. Nevertheless, most of the 3D human avatars modeled
from a casually captured video only support body motions without facial
expressions and hand motions.In this work, we present ExAvatar, an expressive
whole-body 3D human avatar learned from a short monocular video. We design
ExAvatar as a combination of the whole-body parametric mesh model (SMPL-X) and
3D Gaussian Splatting (3DGS). The main challenges are 1) a limited diversity of
facial expressions and poses in the video and 2) the absence of 3D
observations, such as 3D scans and RGBD images. The limited diversity in the
video makes animations with novel facial expressions and poses non-trivial. In
addition, the absence of 3D observations could cause significant ambiguity in
human parts that are not observed in the video, which can result in noticeable
artifacts under novel motions. To address them, we introduce our hybrid
representation of the mesh and 3D Gaussians. Our hybrid representation treats
each 3D Gaussian as a vertex on the surface with pre-defined connectivity
information (i.e., triangle faces) between them following the mesh topology of
SMPL-X. It makes our ExAvatar animatable with novel facial expressions by
driven by the facial expression space of SMPL-X. In addition, by using
connectivity-based regularizers, we significantly reduce artifacts in novel
facial expressions and poses.