ChatPaper.aiChatPaper

Ausdrucksstarker Ganzkörper-3D-Gauß-Avatar

Expressive Whole-Body 3D Gaussian Avatar

July 31, 2024
Autoren: Gyeongsik Moon, Takaaki Shiratori, Shunsuke Saito
cs.AI

Zusammenfassung

Gesichtsausdrucke und Handbewegungen sind notwendig, um unsere Emotionen auszudrücken und mit der Welt zu interagieren. Dennoch unterstützen die meisten 3D-Menschendarstellungen, die aus zufällig aufgenommenen Videos modelliert wurden, nur Körperbewegungen ohne Gesichtsausdrücke und Handbewegungen. In dieser Arbeit präsentieren wir ExAvatar, einen ausdrucksstarken Ganzkörper-3D-Menschendarsteller, der aus einem kurzen monokularen Video gelernt wurde. Wir gestalten ExAvatar als eine Kombination des Ganzkörper-parametrischen Mesh-Modells (SMPL-X) und des 3D-Gauß-Splattings (3DGS). Die Hauptprobleme sind 1) eine begrenzte Vielfalt an Gesichtsausdrücken und Posen im Video und 2) das Fehlen von 3D-Beobachtungen wie 3D-Scans und RGBD-Bilder. Die begrenzte Vielfalt im Video macht Animationen mit neuen Gesichtsausdrücken und Posen nicht trivial. Darüber hinaus könnte das Fehlen von 3D-Beobachtungen zu erheblichen Unklarheiten bei menschlichen Teilen führen, die im Video nicht beobachtet werden, was zu deutlichen Artefakten bei neuen Bewegungen führen kann. Um diese Probleme anzugehen, führen wir unsere hybride Darstellung des Mesh und der 3D-Gaußschen ein. Unsere hybride Darstellung behandelt jeden 3D-Gaußschen als einen Vertex auf der Oberfläche mit vordefinierten Verbindungsinformationen (d.h. Dreiecksflächen) zwischen ihnen, die der Mesh-Topologie von SMPL-X folgen. Dadurch wird unser ExAvatar animierbar mit neuen Gesichtsausdrücken, die durch den Gesichtsausdrucksraum von SMPL-X gesteuert werden. Darüber hinaus reduzieren wir durch die Verwendung von verbindungsbezogenen Regularisierern signifikant Artefakte bei neuen Gesichtsausdrücken und Posen.
English
Facial expression and hand motions are necessary to express our emotions and interact with the world. Nevertheless, most of the 3D human avatars modeled from a casually captured video only support body motions without facial expressions and hand motions.In this work, we present ExAvatar, an expressive whole-body 3D human avatar learned from a short monocular video. We design ExAvatar as a combination of the whole-body parametric mesh model (SMPL-X) and 3D Gaussian Splatting (3DGS). The main challenges are 1) a limited diversity of facial expressions and poses in the video and 2) the absence of 3D observations, such as 3D scans and RGBD images. The limited diversity in the video makes animations with novel facial expressions and poses non-trivial. In addition, the absence of 3D observations could cause significant ambiguity in human parts that are not observed in the video, which can result in noticeable artifacts under novel motions. To address them, we introduce our hybrid representation of the mesh and 3D Gaussians. Our hybrid representation treats each 3D Gaussian as a vertex on the surface with pre-defined connectivity information (i.e., triangle faces) between them following the mesh topology of SMPL-X. It makes our ExAvatar animatable with novel facial expressions by driven by the facial expression space of SMPL-X. In addition, by using connectivity-based regularizers, we significantly reduce artifacts in novel facial expressions and poses.

Summary

AI-Generated Summary

PDF82November 28, 2024