Avatar Gaussiano 3D de Cuerpo Completo Expresivo

Resumen

La expresión facial y los movimientos de las manos son necesarios para expresar nuestras emociones e interactuar con el mundo. Sin embargo, la mayoría de los avatares humanos en 3D modelados a partir de un video capturado de manera casual solo admiten movimientos corporales sin expresiones faciales y gestos de las manos. En este trabajo, presentamos ExAvatar, un avatar humano en 3D expresivo de cuerpo completo aprendido a partir de un breve video monocular. Diseñamos ExAvatar como una combinación del modelo de malla paramétrica de cuerpo completo (SMPL-X) y el esparcimiento gaussiano en 3D (3DGS). Los principales desafíos son 1) una diversidad limitada de expresiones faciales y poses en el video y 2) la ausencia de observaciones en 3D, como escaneos en 3D e imágenes RGBD. La limitada diversidad en el video dificulta la creación de animaciones con expresiones faciales y poses novedosas. Además, la falta de observaciones en 3D podría causar ambigüedad significativa en partes del cuerpo humano que no se observan en el video, lo que puede resultar en artefactos notables bajo movimientos novedosos. Para abordar estos problemas, presentamos nuestra representación híbrida de la malla y los gaussianos en 3D. Nuestra representación híbrida trata a cada gaussiano en 3D como un vértice en la superficie con información de conectividad predefinida (es decir, caras triangulares) entre ellos siguiendo la topología de la malla de SMPL-X. Esto permite que nuestro ExAvatar sea animable con expresiones faciales novedosas impulsadas por el espacio de expresiones faciales de SMPL-X. Además, mediante regularizadores basados en conectividad, reducimos significativamente los artefactos en expresiones faciales y poses novedosas.

English

Facial expression and hand motions are necessary to express our emotions and interact with the world. Nevertheless, most of the 3D human avatars modeled from a casually captured video only support body motions without facial expressions and hand motions.In this work, we present ExAvatar, an expressive whole-body 3D human avatar learned from a short monocular video. We design ExAvatar as a combination of the whole-body parametric mesh model (SMPL-X) and 3D Gaussian Splatting (3DGS). The main challenges are 1) a limited diversity of facial expressions and poses in the video and 2) the absence of 3D observations, such as 3D scans and RGBD images. The limited diversity in the video makes animations with novel facial expressions and poses non-trivial. In addition, the absence of 3D observations could cause significant ambiguity in human parts that are not observed in the video, which can result in noticeable artifacts under novel motions. To address them, we introduce our hybrid representation of the mesh and 3D Gaussians. Our hybrid representation treats each 3D Gaussian as a vertex on the surface with pre-defined connectivity information (i.e., triangle faces) between them following the mesh topology of SMPL-X. It makes our ExAvatar animatable with novel facial expressions by driven by the facial expression space of SMPL-X. In addition, by using connectivity-based regularizers, we significantly reduce artifacts in novel facial expressions and poses.

Avatar Gaussiano 3D de Cuerpo Completo Expresivo

Expressive Whole-Body 3D Gaussian Avatar

Resumen

Support