Ausdrucksstarker Ganzkörper-3D-Gauß-Avatar
Expressive Whole-Body 3D Gaussian Avatar
July 31, 2024
Autoren: Gyeongsik Moon, Takaaki Shiratori, Shunsuke Saito
cs.AI
Zusammenfassung
Gesichtsausdrucke und Handbewegungen sind notwendig, um unsere Emotionen auszudrücken und mit der Welt zu interagieren. Dennoch unterstützen die meisten 3D-Menschendarstellungen, die aus zufällig aufgenommenen Videos modelliert wurden, nur Körperbewegungen ohne Gesichtsausdrücke und Handbewegungen. In dieser Arbeit präsentieren wir ExAvatar, einen ausdrucksstarken Ganzkörper-3D-Menschendarsteller, der aus einem kurzen monokularen Video gelernt wurde. Wir gestalten ExAvatar als eine Kombination des Ganzkörper-parametrischen Mesh-Modells (SMPL-X) und des 3D-Gauß-Splattings (3DGS). Die Hauptprobleme sind 1) eine begrenzte Vielfalt an Gesichtsausdrücken und Posen im Video und 2) das Fehlen von 3D-Beobachtungen wie 3D-Scans und RGBD-Bilder. Die begrenzte Vielfalt im Video macht Animationen mit neuen Gesichtsausdrücken und Posen nicht trivial. Darüber hinaus könnte das Fehlen von 3D-Beobachtungen zu erheblichen Unklarheiten bei menschlichen Teilen führen, die im Video nicht beobachtet werden, was zu deutlichen Artefakten bei neuen Bewegungen führen kann. Um diese Probleme anzugehen, führen wir unsere hybride Darstellung des Mesh und der 3D-Gaußschen ein. Unsere hybride Darstellung behandelt jeden 3D-Gaußschen als einen Vertex auf der Oberfläche mit vordefinierten Verbindungsinformationen (d.h. Dreiecksflächen) zwischen ihnen, die der Mesh-Topologie von SMPL-X folgen. Dadurch wird unser ExAvatar animierbar mit neuen Gesichtsausdrücken, die durch den Gesichtsausdrucksraum von SMPL-X gesteuert werden. Darüber hinaus reduzieren wir durch die Verwendung von verbindungsbezogenen Regularisierern signifikant Artefakte bei neuen Gesichtsausdrücken und Posen.
English
Facial expression and hand motions are necessary to express our emotions and
interact with the world. Nevertheless, most of the 3D human avatars modeled
from a casually captured video only support body motions without facial
expressions and hand motions.In this work, we present ExAvatar, an expressive
whole-body 3D human avatar learned from a short monocular video. We design
ExAvatar as a combination of the whole-body parametric mesh model (SMPL-X) and
3D Gaussian Splatting (3DGS). The main challenges are 1) a limited diversity of
facial expressions and poses in the video and 2) the absence of 3D
observations, such as 3D scans and RGBD images. The limited diversity in the
video makes animations with novel facial expressions and poses non-trivial. In
addition, the absence of 3D observations could cause significant ambiguity in
human parts that are not observed in the video, which can result in noticeable
artifacts under novel motions. To address them, we introduce our hybrid
representation of the mesh and 3D Gaussians. Our hybrid representation treats
each 3D Gaussian as a vertex on the surface with pre-defined connectivity
information (i.e., triangle faces) between them following the mesh topology of
SMPL-X. It makes our ExAvatar animatable with novel facial expressions by
driven by the facial expression space of SMPL-X. In addition, by using
connectivity-based regularizers, we significantly reduce artifacts in novel
facial expressions and poses.Summary
AI-Generated Summary