ChatPaper.aiChatPaper

Avatar Espressivo a Corpo Intero con Gaussiane 3D

Expressive Whole-Body 3D Gaussian Avatar

July 31, 2024
Autori: Gyeongsik Moon, Takaaki Shiratori, Shunsuke Saito
cs.AI

Abstract

Le espressioni facciali e i movimenti delle mani sono necessari per esprimere le nostre emozioni e interagire con il mondo. Tuttavia, la maggior parte degli avatar umani 3D modellati da un video catturato casualmente supportano solo i movimenti del corpo, senza espressioni facciali e movimenti delle mani. In questo lavoro, presentiamo ExAvatar, un avatar umano 3D completo ed espressivo, appreso da un breve video monoculare. Progettiamo ExAvatar come una combinazione del modello parametrico di mesh per il corpo intero (SMPL-X) e del 3D Gaussian Splatting (3DGS). Le principali sfide sono 1) una diversità limitata di espressioni facciali e pose nel video e 2) l'assenza di osservazioni 3D, come scansioni 3D e immagini RGBD. La diversità limitata nel video rende non banale l'animazione con nuove espressioni facciali e pose. Inoltre, l'assenza di osservazioni 3D potrebbe causare una significativa ambiguità nelle parti del corpo non osservate nel video, il che può portare a evidenti artefatti sotto nuovi movimenti. Per affrontare queste sfide, introduciamo la nostra rappresentazione ibrida della mesh e delle Gaussiane 3D. La nostra rappresentazione ibrida tratta ogni Gaussiana 3D come un vertice sulla superficie con informazioni di connettività predefinite (ad esempio, facce triangolari) tra di esse, seguendo la topologia della mesh di SMPL-X. Ciò rende il nostro ExAvatar animabile con nuove espressioni facciali guidate dallo spazio delle espressioni facciali di SMPL-X. Inoltre, utilizzando regolarizzatori basati sulla connettività, riduciamo significativamente gli artefatti nelle nuove espressioni facciali e pose.
English
Facial expression and hand motions are necessary to express our emotions and interact with the world. Nevertheless, most of the 3D human avatars modeled from a casually captured video only support body motions without facial expressions and hand motions.In this work, we present ExAvatar, an expressive whole-body 3D human avatar learned from a short monocular video. We design ExAvatar as a combination of the whole-body parametric mesh model (SMPL-X) and 3D Gaussian Splatting (3DGS). The main challenges are 1) a limited diversity of facial expressions and poses in the video and 2) the absence of 3D observations, such as 3D scans and RGBD images. The limited diversity in the video makes animations with novel facial expressions and poses non-trivial. In addition, the absence of 3D observations could cause significant ambiguity in human parts that are not observed in the video, which can result in noticeable artifacts under novel motions. To address them, we introduce our hybrid representation of the mesh and 3D Gaussians. Our hybrid representation treats each 3D Gaussian as a vertex on the surface with pre-defined connectivity information (i.e., triangle faces) between them following the mesh topology of SMPL-X. It makes our ExAvatar animatable with novel facial expressions by driven by the facial expression space of SMPL-X. In addition, by using connectivity-based regularizers, we significantly reduce artifacts in novel facial expressions and poses.
PDF82November 28, 2024