Avatar Gaussiano 3D de Corpo Inteiro Expressivo

Resumo

A expressão facial e os movimentos das mãos são necessários para expressar nossas emoções e interagir com o mundo. No entanto, a maioria dos avatares humanos 3D modelados a partir de um vídeo casualmente capturado suportam apenas movimentos corporais sem expressões faciais e movimentos das mãos. Neste trabalho, apresentamos o ExAvatar, um avatar humano 3D expressivo de corpo inteiro aprendido a partir de um curto vídeo monocular. Projetamos o ExAvatar como uma combinação do modelo de malha paramétrica de corpo inteiro (SMPL-X) e do Splatting Gaussiano 3D (3DGS). Os principais desafios são 1) uma diversidade limitada de expressões faciais e poses no vídeo e 2) a ausência de observações 3D, como varreduras 3D e imagens RGBD. A limitada diversidade no vídeo torna as animações com novas expressões faciais e poses não triviais. Além disso, a ausência de observações 3D pode causar ambiguidade significativa em partes do corpo humano não observadas no vídeo, o que pode resultar em artefatos perceptíveis sob novos movimentos. Para abordá-los, introduzimos nossa representação híbrida da malha e dos Gaussianos 3D. Nossa representação híbrida trata cada Gaussiano 3D como um vértice na superfície com informações de conectividade predefinidas (ou seja, faces triangulares) entre eles, seguindo a topologia de malha do SMPL-X. Isso torna nosso ExAvatar animável com novas expressões faciais impulsionadas pelo espaço de expressão facial do SMPL-X. Além disso, ao usar regularizadores baseados em conectividade, reduzimos significativamente os artefatos em novas expressões faciais e poses.

English

Facial expression and hand motions are necessary to express our emotions and interact with the world. Nevertheless, most of the 3D human avatars modeled from a casually captured video only support body motions without facial expressions and hand motions.In this work, we present ExAvatar, an expressive whole-body 3D human avatar learned from a short monocular video. We design ExAvatar as a combination of the whole-body parametric mesh model (SMPL-X) and 3D Gaussian Splatting (3DGS). The main challenges are 1) a limited diversity of facial expressions and poses in the video and 2) the absence of 3D observations, such as 3D scans and RGBD images. The limited diversity in the video makes animations with novel facial expressions and poses non-trivial. In addition, the absence of 3D observations could cause significant ambiguity in human parts that are not observed in the video, which can result in noticeable artifacts under novel motions. To address them, we introduce our hybrid representation of the mesh and 3D Gaussians. Our hybrid representation treats each 3D Gaussian as a vertex on the surface with pre-defined connectivity information (i.e., triangle faces) between them following the mesh topology of SMPL-X. It makes our ExAvatar animatable with novel facial expressions by driven by the facial expression space of SMPL-X. In addition, by using connectivity-based regularizers, we significantly reduce artifacts in novel facial expressions and poses.

Avatar Gaussiano 3D de Corpo Inteiro Expressivo

Expressive Whole-Body 3D Gaussian Avatar

Resumo

Summary

Support

Support