NPGA : Avatars Gaussiennes Paramétriques Neuronales
NPGA: Neural Parametric Gaussian Avatars
May 29, 2024
Auteurs: Simon Giebenhain, Tobias Kirschstein, Martin Rünz, Lourdes Agapito, Matthias Nießner
cs.AI
Résumé
La création de versions numériques haute fidélité de têtes humaines constitue une étape importante dans le processus d'intégration accrue de composants virtuels dans notre vie quotidienne. La construction de tels avatars représente un problème de recherche complexe, en raison d'une forte demande en photoréalisme et en performances de rendu en temps réel. Dans ce travail, nous proposons les Neural Parametric Gaussian Avatars (NPGA), une approche basée sur les données pour créer des avatars haute fidélité et contrôlables à partir d'enregistrements vidéo multi-vues. Nous construisons notre méthode autour du 3D Gaussian Splatting pour son rendu hautement efficace et pour hériter de la flexibilité topologique des nuages de points. Contrairement aux travaux précédents, nous conditionnons la dynamique de nos avatars sur l'espace d'expression riche des modèles de tête neuronaux paramétriques (NPHM), plutôt que sur des modèles morphables 3D basés sur des maillages. Pour ce faire, nous distillons le champ de déformation inverse de notre NPHM sous-jacent en déformations directes compatibles avec le rendu basé sur la rasterisation. Tous les détails fins dépendants de l'expression sont appris à partir des vidéos multi-vues. Pour augmenter la capacité de représentation de nos avatars, nous enrichissons le nuage de points gaussiens canonique en utilisant des caractéristiques latentes par primitive qui gouvernent son comportement dynamique. Pour régulariser cette expressivité dynamique accrue, nous proposons des termes de Laplacien sur les caractéristiques latentes et les dynamiques prédites. Nous évaluons notre méthode sur le jeu de données public NeRSemble, démontrant que les NPGA surpassent significativement les avatars de l'état de l'art précédent sur la tâche de réincarnation personnelle avec un gain de 2,6 PSNR. De plus, nous démontrons des capacités d'animation précises à partir de vidéos monoscopiques du monde réel.
English
The creation of high-fidelity, digital versions of human heads is an
important stepping stone in the process of further integrating virtual
components into our everyday lives. Constructing such avatars is a challenging
research problem, due to a high demand for photo-realism and real-time
rendering performance. In this work, we propose Neural Parametric Gaussian
Avatars (NPGA), a data-driven approach to create high-fidelity, controllable
avatars from multi-view video recordings. We build our method around 3D
Gaussian Splatting for its highly efficient rendering and to inherit the
topological flexibility of point clouds. In contrast to previous work, we
condition our avatars' dynamics on the rich expression space of neural
parametric head models (NPHM), instead of mesh-based 3DMMs. To this end, we
distill the backward deformation field of our underlying NPHM into forward
deformations which are compatible with rasterization-based rendering. All
remaining fine-scale, expression-dependent details are learned from the
multi-view videos. To increase the representational capacity of our avatars, we
augment the canonical Gaussian point cloud using per-primitive latent features
which govern its dynamic behavior. To regularize this increased dynamic
expressivity, we propose Laplacian terms on the latent features and predicted
dynamics. We evaluate our method on the public NeRSemble dataset, demonstrating
that NPGA significantly outperforms the previous state-of-the-art avatars on
the self-reenactment task by 2.6 PSNR. Furthermore, we demonstrate accurate
animation capabilities from real-world monocular videos.Summary
AI-Generated Summary