Выразительный трехмерный гауссовский аватар целого тела

Аннотация

Мимика лица и движения рук необходимы для выражения наших эмоций и взаимодействия с миром. Тем не менее, большинство трехмерных человеческих аватаров, созданных на основе случайно захваченного видео, поддерживают только движения тела без выражения лица и движений рук. В данной работе мы представляем ExAvatar - выразительный трехмерный человеческий аватар с цельным телом, обученный на коротком монокулярном видео. Мы разработали ExAvatar как комбинацию параметрической сетки целого тела (SMPL-X) и трехмерного гауссовского сплетения (3DGS). Основные проблемы заключаются в том, что 1) в видео ограниченное разнообразие выражений лица и поз и 2) отсутствие трехмерных наблюдений, таких как трехмерные сканы и RGBD-изображения. Ограниченное разнообразие в видео затрудняет создание анимаций с новыми выражениями лица и позами. Кроме того, отсутствие трехмерных наблюдений может привести к значительной неоднозначности в частях тела человека, которые не наблюдались на видео, что может привести к заметным артефактам при новых движениях. Для их решения мы представляем наше гибридное представление сетки и трехмерных гауссов. Наше гибридное представление рассматривает каждый трехмерный гауссиан как вершину на поверхности с заранее определенной информацией о соединениях (т.е. треугольные грани) между ними в соответствии с топологией сетки SMPL-X. Это позволяет нашему ExAvatar анимироваться с новыми выражениями лица, управляемыми пространством выражений лица SMPL-X. Кроме того, используя регуляризаторы на основе соединений, мы значительно уменьшаем артефакты при новых выражениях лица и позах.

English

Facial expression and hand motions are necessary to express our emotions and interact with the world. Nevertheless, most of the 3D human avatars modeled from a casually captured video only support body motions without facial expressions and hand motions.In this work, we present ExAvatar, an expressive whole-body 3D human avatar learned from a short monocular video. We design ExAvatar as a combination of the whole-body parametric mesh model (SMPL-X) and 3D Gaussian Splatting (3DGS). The main challenges are 1) a limited diversity of facial expressions and poses in the video and 2) the absence of 3D observations, such as 3D scans and RGBD images. The limited diversity in the video makes animations with novel facial expressions and poses non-trivial. In addition, the absence of 3D observations could cause significant ambiguity in human parts that are not observed in the video, which can result in noticeable artifacts under novel motions. To address them, we introduce our hybrid representation of the mesh and 3D Gaussians. Our hybrid representation treats each 3D Gaussian as a vertex on the surface with pre-defined connectivity information (i.e., triangle faces) between them following the mesh topology of SMPL-X. It makes our ExAvatar animatable with novel facial expressions by driven by the facial expression space of SMPL-X. In addition, by using connectivity-based regularizers, we significantly reduce artifacts in novel facial expressions and poses.

Выразительный трехмерный гауссовский аватар целого тела

Expressive Whole-Body 3D Gaussian Avatar

Аннотация

Support