ChatPaper.aiChatPaper

표현력이 풍부한 전신 3D 가우시안 아바타

Expressive Whole-Body 3D Gaussian Avatar

July 31, 2024
저자: Gyeongsik Moon, Takaaki Shiratori, Shunsuke Saito
cs.AI

초록

얼굴 표정과 손동작은 우리의 감정을 표현하고 세상과 상호작용하기 위해 필수적입니다. 그러나 캐주얼하게 촬영된 비디오로부터 모델링된 대부분의 3D 인간 아바타는 얼굴 표정과 손동작 없이 신체 동작만을 지원합니다. 본 연구에서는 짧은 단안 비디오로부터 학습된 표현력 있는 전신 3D 인간 아바타인 ExAvatar를 제시합니다. 우리는 ExAvatar를 전신 파라메트릭 메쉬 모델(SMPL-X)과 3D 가우시안 스플래팅(3DGS)의 조합으로 설계했습니다. 주요 도전 과제는 1) 비디오 내 얼굴 표정과 자세의 다양성 부족과 2) 3D 스캔 및 RGBD 이미지와 같은 3D 관측 데이터의 부재입니다. 비디오 내 다양성 부족은 새로운 얼굴 표정과 자세를 가진 애니메이션을 생성하는 것을 어렵게 만듭니다. 또한, 3D 관측 데이터의 부재는 비디오에서 관찰되지 않은 신체 부위에서 상당한 모호성을 초래할 수 있으며, 이는 새로운 동작에서 눈에 띄는 아티팩트를 유발할 수 있습니다. 이를 해결하기 위해 우리는 메쉬와 3D 가우시안의 하이브리드 표현을 도입했습니다. 우리의 하이브리드 표현은 각 3D 가우시안을 SMPL-X의 메쉬 토폴로지를 따르는 사전 정의된 연결 정보(즉, 삼각형 면)를 가진 표면의 정점으로 취급합니다. 이를 통해 ExAvatar는 SMPL-X의 얼굴 표정 공간에 의해 구동되어 새로운 얼굴 표정으로 애니메이션 가능하게 만듭니다. 또한, 연결 기반 정규화를 사용하여 새로운 얼굴 표정과 자세에서의 아티팩트를 크게 줄입니다.
English
Facial expression and hand motions are necessary to express our emotions and interact with the world. Nevertheless, most of the 3D human avatars modeled from a casually captured video only support body motions without facial expressions and hand motions.In this work, we present ExAvatar, an expressive whole-body 3D human avatar learned from a short monocular video. We design ExAvatar as a combination of the whole-body parametric mesh model (SMPL-X) and 3D Gaussian Splatting (3DGS). The main challenges are 1) a limited diversity of facial expressions and poses in the video and 2) the absence of 3D observations, such as 3D scans and RGBD images. The limited diversity in the video makes animations with novel facial expressions and poses non-trivial. In addition, the absence of 3D observations could cause significant ambiguity in human parts that are not observed in the video, which can result in noticeable artifacts under novel motions. To address them, we introduce our hybrid representation of the mesh and 3D Gaussians. Our hybrid representation treats each 3D Gaussian as a vertex on the surface with pre-defined connectivity information (i.e., triangle faces) between them following the mesh topology of SMPL-X. It makes our ExAvatar animatable with novel facial expressions by driven by the facial expression space of SMPL-X. In addition, by using connectivity-based regularizers, we significantly reduce artifacts in novel facial expressions and poses.

Summary

AI-Generated Summary

PDF82November 28, 2024