ChatPaper.aiChatPaper

AvatarReX : Avatars complets expressifs en temps réel

AvatarReX: Real-time Expressive Full-body Avatars

May 8, 2023
Auteurs: Zerong Zheng, Xiaochen Zhao, Hongwen Zhang, Boning Liu, Yebin Liu
cs.AI

Résumé

Nous présentons AvatarReX, une nouvelle méthode pour apprendre des avatars complets basés sur NeRF à partir de données vidéo. L'avatar appris permet non seulement un contrôle expressif du corps, des mains et du visage ensemble, mais prend également en charge l'animation et le rendu en temps réel. Pour ce faire, nous proposons une représentation d'avatar compositionnelle, où le corps, les mains et le visage sont modélisés séparément de manière à exploiter correctement les connaissances structurelles issues de modèles de maillage paramétriques, sans compromettre la flexibilité de la représentation. De plus, nous dissocions la géométrie et l'apparence pour chaque partie. Grâce à ces choix techniques, nous proposons un pipeline de rendu différé dédié, qui peut être exécuté à une fréquence d'images en temps réel pour synthétiser des images de haute qualité en vue libre. La dissociation de la géométrie et de l'apparence nous permet également de concevoir une stratégie d'apprentissage en deux passes qui combine le rendu volumétrique et le rendu de surface pour l'entraînement du réseau. De cette manière, une supervision au niveau des patchs peut être appliquée pour forcer le réseau à apprendre des détails d'apparence nets sur la base de l'estimation de la géométrie. Globalement, notre méthode permet la construction automatique d'avatars complets expressifs avec une capacité de rendu en temps réel, et peut générer des images photo-réalistes avec des détails dynamiques pour de nouveaux mouvements corporels et expressions faciales.
English
We present AvatarReX, a new method for learning NeRF-based full-body avatars from video data. The learnt avatar not only provides expressive control of the body, hands and the face together, but also supports real-time animation and rendering. To this end, we propose a compositional avatar representation, where the body, hands and the face are separately modeled in a way that the structural prior from parametric mesh templates is properly utilized without compromising representation flexibility. Furthermore, we disentangle the geometry and appearance for each part. With these technical designs, we propose a dedicated deferred rendering pipeline, which can be executed in real-time framerate to synthesize high-quality free-view images. The disentanglement of geometry and appearance also allows us to design a two-pass training strategy that combines volume rendering and surface rendering for network training. In this way, patch-level supervision can be applied to force the network to learn sharp appearance details on the basis of geometry estimation. Overall, our method enables automatic construction of expressive full-body avatars with real-time rendering capability, and can generate photo-realistic images with dynamic details for novel body motions and facial expressions.
PDF10December 15, 2024