Avatar de Tête Gaussien : Avatar de Tête Ultra Haute Fidélité via des Gaussiennes Dynamiques
Gaussian Head Avatar: Ultra High-fidelity Head Avatar via Dynamic Gaussians
December 5, 2023
Auteurs: Yuelang Xu, Benwang Chen, Zhe Li, Hongwen Zhang, Lizhen Wang, Zerong Zheng, Yebin Liu
cs.AI
Résumé
La création d'avatars 3D de têtes à haute fidélité a toujours été un sujet de recherche privilégié, mais cela reste un défi majeur dans des configurations légères avec des vues éparses. Dans cet article, nous proposons un avatar de tête gaussien représenté par des gaussiennes 3D contrôlables pour la modélisation d'avatars de tête à haute fidélité. Nous optimisons les gaussiennes 3D neutres et un champ de déformation entièrement appris basé sur un MLP pour capturer des expressions complexes. Les deux parties se renforcent mutuellement, permettant ainsi à notre méthode de modéliser des détails dynamiques fins tout en garantissant la précision des expressions. De plus, nous concevons une stratégie d'initialisation guidée par la géométrie, basée sur un SDF implicite et la méthode Deep Marching Tetrahedra, pour assurer la stabilité et la convergence du processus d'entraînement. Les expériences montrent que notre approche surpasse les autres méthodes de pointe en vue éparse, atteignant une qualité de rendu ultra haute fidélité en résolution 2K, même sous des expressions exagérées.
English
Creating high-fidelity 3D head avatars has always been a research hotspot,
but there remains a great challenge under lightweight sparse view setups. In
this paper, we propose Gaussian Head Avatar represented by controllable 3D
Gaussians for high-fidelity head avatar modeling. We optimize the neutral 3D
Gaussians and a fully learned MLP-based deformation field to capture complex
expressions. The two parts benefit each other, thereby our method can model
fine-grained dynamic details while ensuring expression accuracy. Furthermore,
we devise a well-designed geometry-guided initialization strategy based on
implicit SDF and Deep Marching Tetrahedra for the stability and convergence of
the training procedure. Experiments show our approach outperforms other
state-of-the-art sparse-view methods, achieving ultra high-fidelity rendering
quality at 2K resolution even under exaggerated expressions.