Avatar Gaussiano 3D de Corpo Inteiro Expressivo
Expressive Whole-Body 3D Gaussian Avatar
July 31, 2024
Autores: Gyeongsik Moon, Takaaki Shiratori, Shunsuke Saito
cs.AI
Resumo
A expressão facial e os movimentos das mãos são necessários para expressar nossas emoções e interagir com o mundo. No entanto, a maioria dos avatares humanos 3D modelados a partir de um vídeo casualmente capturado suportam apenas movimentos corporais sem expressões faciais e movimentos das mãos. Neste trabalho, apresentamos o ExAvatar, um avatar humano 3D expressivo de corpo inteiro aprendido a partir de um curto vídeo monocular. Projetamos o ExAvatar como uma combinação do modelo de malha paramétrica de corpo inteiro (SMPL-X) e do Splatting Gaussiano 3D (3DGS). Os principais desafios são 1) uma diversidade limitada de expressões faciais e poses no vídeo e 2) a ausência de observações 3D, como varreduras 3D e imagens RGBD. A limitada diversidade no vídeo torna as animações com novas expressões faciais e poses não triviais. Além disso, a ausência de observações 3D pode causar ambiguidade significativa em partes do corpo humano não observadas no vídeo, o que pode resultar em artefatos perceptíveis sob novos movimentos. Para abordá-los, introduzimos nossa representação híbrida da malha e dos Gaussianos 3D. Nossa representação híbrida trata cada Gaussiano 3D como um vértice na superfície com informações de conectividade predefinidas (ou seja, faces triangulares) entre eles, seguindo a topologia de malha do SMPL-X. Isso torna nosso ExAvatar animável com novas expressões faciais impulsionadas pelo espaço de expressão facial do SMPL-X. Além disso, ao usar regularizadores baseados em conectividade, reduzimos significativamente os artefatos em novas expressões faciais e poses.
English
Facial expression and hand motions are necessary to express our emotions and
interact with the world. Nevertheless, most of the 3D human avatars modeled
from a casually captured video only support body motions without facial
expressions and hand motions.In this work, we present ExAvatar, an expressive
whole-body 3D human avatar learned from a short monocular video. We design
ExAvatar as a combination of the whole-body parametric mesh model (SMPL-X) and
3D Gaussian Splatting (3DGS). The main challenges are 1) a limited diversity of
facial expressions and poses in the video and 2) the absence of 3D
observations, such as 3D scans and RGBD images. The limited diversity in the
video makes animations with novel facial expressions and poses non-trivial. In
addition, the absence of 3D observations could cause significant ambiguity in
human parts that are not observed in the video, which can result in noticeable
artifacts under novel motions. To address them, we introduce our hybrid
representation of the mesh and 3D Gaussians. Our hybrid representation treats
each 3D Gaussian as a vertex on the surface with pre-defined connectivity
information (i.e., triangle faces) between them following the mesh topology of
SMPL-X. It makes our ExAvatar animatable with novel facial expressions by
driven by the facial expression space of SMPL-X. In addition, by using
connectivity-based regularizers, we significantly reduce artifacts in novel
facial expressions and poses.Summary
AI-Generated Summary