Avatar Gaussiano 3D de Cuerpo Completo Expresivo
Expressive Whole-Body 3D Gaussian Avatar
July 31, 2024
Autores: Gyeongsik Moon, Takaaki Shiratori, Shunsuke Saito
cs.AI
Resumen
La expresión facial y los movimientos de las manos son necesarios para expresar nuestras emociones e interactuar con el mundo. Sin embargo, la mayoría de los avatares humanos en 3D modelados a partir de un video capturado de manera casual solo admiten movimientos corporales sin expresiones faciales y gestos de las manos. En este trabajo, presentamos ExAvatar, un avatar humano en 3D expresivo de cuerpo completo aprendido a partir de un breve video monocular. Diseñamos ExAvatar como una combinación del modelo de malla paramétrica de cuerpo completo (SMPL-X) y el esparcimiento gaussiano en 3D (3DGS). Los principales desafíos son 1) una diversidad limitada de expresiones faciales y poses en el video y 2) la ausencia de observaciones en 3D, como escaneos en 3D e imágenes RGBD. La limitada diversidad en el video dificulta la creación de animaciones con expresiones faciales y poses novedosas. Además, la falta de observaciones en 3D podría causar ambigüedad significativa en partes del cuerpo humano que no se observan en el video, lo que puede resultar en artefactos notables bajo movimientos novedosos. Para abordar estos problemas, presentamos nuestra representación híbrida de la malla y los gaussianos en 3D. Nuestra representación híbrida trata a cada gaussiano en 3D como un vértice en la superficie con información de conectividad predefinida (es decir, caras triangulares) entre ellos siguiendo la topología de la malla de SMPL-X. Esto permite que nuestro ExAvatar sea animable con expresiones faciales novedosas impulsadas por el espacio de expresiones faciales de SMPL-X. Además, mediante regularizadores basados en conectividad, reducimos significativamente los artefactos en expresiones faciales y poses novedosas.
English
Facial expression and hand motions are necessary to express our emotions and
interact with the world. Nevertheless, most of the 3D human avatars modeled
from a casually captured video only support body motions without facial
expressions and hand motions.In this work, we present ExAvatar, an expressive
whole-body 3D human avatar learned from a short monocular video. We design
ExAvatar as a combination of the whole-body parametric mesh model (SMPL-X) and
3D Gaussian Splatting (3DGS). The main challenges are 1) a limited diversity of
facial expressions and poses in the video and 2) the absence of 3D
observations, such as 3D scans and RGBD images. The limited diversity in the
video makes animations with novel facial expressions and poses non-trivial. In
addition, the absence of 3D observations could cause significant ambiguity in
human parts that are not observed in the video, which can result in noticeable
artifacts under novel motions. To address them, we introduce our hybrid
representation of the mesh and 3D Gaussians. Our hybrid representation treats
each 3D Gaussian as a vertex on the surface with pre-defined connectivity
information (i.e., triangle faces) between them following the mesh topology of
SMPL-X. It makes our ExAvatar animatable with novel facial expressions by
driven by the facial expression space of SMPL-X. In addition, by using
connectivity-based regularizers, we significantly reduce artifacts in novel
facial expressions and poses.Summary
AI-Generated Summary