Avatar Testa Gaussiana: Avatar di Testa ad Altissima Fedeltà tramite Gaussiane Dinamiche
Gaussian Head Avatar: Ultra High-fidelity Head Avatar via Dynamic Gaussians
December 5, 2023
Autori: Yuelang Xu, Benwang Chen, Zhe Li, Hongwen Zhang, Lizhen Wang, Zerong Zheng, Yebin Liu
cs.AI
Abstract
La creazione di avatar 3D di teste ad alta fedeltà è sempre stata un'area di ricerca di grande interesse, ma rimane una sfida significativa in contesti con configurazioni sparse e leggere. In questo articolo, proponiamo Gaussian Head Avatar, rappresentato da Gaussiane 3D controllabili per la modellazione ad alta fedeltà di avatar di teste. Ottimizziamo le Gaussiane 3D neutre e un campo di deformazione basato su MLP completamente appreso per catturare espressioni complesse. Le due componenti si avvantaggiano reciprocamente, consentendo al nostro metodo di modellare dettagli dinamici finemente granulari garantendo al contempo l'accuratezza delle espressioni. Inoltre, progettiamo una strategia di inizializzazione guidata dalla geometria, basata su SDF implicito e Deep Marching Tetrahedra, per garantire stabilità e convergenza durante il processo di addestramento. Gli esperimenti dimostrano che il nostro approccio supera altri metodi all'avanguardia per visualizzazioni sparse, raggiungendo una qualità di rendering ultra alta a risoluzione 2K anche con espressioni esagerate.
English
Creating high-fidelity 3D head avatars has always been a research hotspot,
but there remains a great challenge under lightweight sparse view setups. In
this paper, we propose Gaussian Head Avatar represented by controllable 3D
Gaussians for high-fidelity head avatar modeling. We optimize the neutral 3D
Gaussians and a fully learned MLP-based deformation field to capture complex
expressions. The two parts benefit each other, thereby our method can model
fine-grained dynamic details while ensuring expression accuracy. Furthermore,
we devise a well-designed geometry-guided initialization strategy based on
implicit SDF and Deep Marching Tetrahedra for the stability and convergence of
the training procedure. Experiments show our approach outperforms other
state-of-the-art sparse-view methods, achieving ultra high-fidelity rendering
quality at 2K resolution even under exaggerated expressions.