表現力豊かな全身3Dガウシアンアバター
Expressive Whole-Body 3D Gaussian Avatar
July 31, 2024
著者: Gyeongsik Moon, Takaaki Shiratori, Shunsuke Saito
cs.AI
要旨
表情や手の動きは、私たちの感情を表現し、世界と相互作用するために必要不可欠です。しかし、カジュアルに撮影されたビデオからモデル化された3D人間アバターのほとんどは、身体の動きのみをサポートしており、表情や手の動きは含まれていません。本研究では、短い単眼ビデオから学習した表現力豊かな全身3D人間アバター「ExAvatar」を提案します。ExAvatarは、全身パラメトリックメッシュモデル(SMPL-X)と3Dガウシアンスプラッティング(3DGS)を組み合わせて設計されています。主な課題は、1)ビデオ内の表情やポーズの多様性が限られていること、2)3DスキャンやRGBD画像などの3D観測データが欠如していることです。ビデオ内の多様性が限られているため、新しい表情やポーズでのアニメーション作成は容易ではありません。さらに、3D観測データが欠如しているため、ビデオ内で観測されなかった人体部分に大きな曖昧さが生じ、新しい動きの下で目立つアーティファクトが発生する可能性があります。これらの課題に対処するため、メッシュと3Dガウシアンのハイブリッド表現を導入しました。このハイブリッド表現では、各3DガウシアンをSMPL-Xのメッシュトポロジーに従って事前に定義された接続情報(つまり三角形の面)を持つ表面上の頂点として扱います。これにより、SMPL-Xの表情空間に基づいて駆動される新しい表情でのExAvatarのアニメーションが可能になります。さらに、接続ベースの正則化器を使用することで、新しい表情やポーズでのアーティファクトを大幅に削減します。
English
Facial expression and hand motions are necessary to express our emotions and
interact with the world. Nevertheless, most of the 3D human avatars modeled
from a casually captured video only support body motions without facial
expressions and hand motions.In this work, we present ExAvatar, an expressive
whole-body 3D human avatar learned from a short monocular video. We design
ExAvatar as a combination of the whole-body parametric mesh model (SMPL-X) and
3D Gaussian Splatting (3DGS). The main challenges are 1) a limited diversity of
facial expressions and poses in the video and 2) the absence of 3D
observations, such as 3D scans and RGBD images. The limited diversity in the
video makes animations with novel facial expressions and poses non-trivial. In
addition, the absence of 3D observations could cause significant ambiguity in
human parts that are not observed in the video, which can result in noticeable
artifacts under novel motions. To address them, we introduce our hybrid
representation of the mesh and 3D Gaussians. Our hybrid representation treats
each 3D Gaussian as a vertex on the surface with pre-defined connectivity
information (i.e., triangle faces) between them following the mesh topology of
SMPL-X. It makes our ExAvatar animatable with novel facial expressions by
driven by the facial expression space of SMPL-X. In addition, by using
connectivity-based regularizers, we significantly reduce artifacts in novel
facial expressions and poses.