Выразительный трехмерный гауссовский аватар целого тела
Expressive Whole-Body 3D Gaussian Avatar
July 31, 2024
Авторы: Gyeongsik Moon, Takaaki Shiratori, Shunsuke Saito
cs.AI
Аннотация
Мимика лица и движения рук необходимы для выражения наших эмоций и взаимодействия с миром. Тем не менее, большинство трехмерных человеческих аватаров, созданных на основе случайно захваченного видео, поддерживают только движения тела без выражения лица и движений рук. В данной работе мы представляем ExAvatar - выразительный трехмерный человеческий аватар с цельным телом, обученный на коротком монокулярном видео. Мы разработали ExAvatar как комбинацию параметрической сетки целого тела (SMPL-X) и трехмерного гауссовского сплетения (3DGS). Основные проблемы заключаются в том, что 1) в видео ограниченное разнообразие выражений лица и поз и 2) отсутствие трехмерных наблюдений, таких как трехмерные сканы и RGBD-изображения. Ограниченное разнообразие в видео затрудняет создание анимаций с новыми выражениями лица и позами. Кроме того, отсутствие трехмерных наблюдений может привести к значительной неоднозначности в частях тела человека, которые не наблюдались на видео, что может привести к заметным артефактам при новых движениях. Для их решения мы представляем наше гибридное представление сетки и трехмерных гауссов. Наше гибридное представление рассматривает каждый трехмерный гауссиан как вершину на поверхности с заранее определенной информацией о соединениях (т.е. треугольные грани) между ними в соответствии с топологией сетки SMPL-X. Это позволяет нашему ExAvatar анимироваться с новыми выражениями лица, управляемыми пространством выражений лица SMPL-X. Кроме того, используя регуляризаторы на основе соединений, мы значительно уменьшаем артефакты при новых выражениях лица и позах.
English
Facial expression and hand motions are necessary to express our emotions and
interact with the world. Nevertheless, most of the 3D human avatars modeled
from a casually captured video only support body motions without facial
expressions and hand motions.In this work, we present ExAvatar, an expressive
whole-body 3D human avatar learned from a short monocular video. We design
ExAvatar as a combination of the whole-body parametric mesh model (SMPL-X) and
3D Gaussian Splatting (3DGS). The main challenges are 1) a limited diversity of
facial expressions and poses in the video and 2) the absence of 3D
observations, such as 3D scans and RGBD images. The limited diversity in the
video makes animations with novel facial expressions and poses non-trivial. In
addition, the absence of 3D observations could cause significant ambiguity in
human parts that are not observed in the video, which can result in noticeable
artifacts under novel motions. To address them, we introduce our hybrid
representation of the mesh and 3D Gaussians. Our hybrid representation treats
each 3D Gaussian as a vertex on the surface with pre-defined connectivity
information (i.e., triangle faces) between them following the mesh topology of
SMPL-X. It makes our ExAvatar animatable with novel facial expressions by
driven by the facial expression space of SMPL-X. In addition, by using
connectivity-based regularizers, we significantly reduce artifacts in novel
facial expressions and poses.Summary
AI-Generated Summary