HeadGAP: Avatar 3D della Testa con Pochi Esempi tramite Prior Gaussiani Generalizzabili
HeadGAP: Few-shot 3D Head Avatar via Generalizable Gaussian Priors
August 12, 2024
Autori: Xiaozheng Zheng, Chao Wen, Zhaohu Li, Weiyi Zhang, Zhuo Su, Xu Chang, Yang Zhao, Zheng Lv, Xiaoyuan Zhang, Yongjie Zhang, Guidong Wang, Lan Xu
cs.AI
Abstract
In questo articolo, presentiamo un nuovo approccio per la creazione di avatar 3D della testa in grado di generalizzare a partire da pochi dati in condizioni reali, garantendo alta fedeltà e robustezza animabile. Data la natura sottovincolata di questo problema, l'incorporazione di conoscenze pregresse è essenziale. Pertanto, proponiamo un framework composto da fasi di apprendimento delle conoscenze pregresse e di creazione dell'avatar. La fase di apprendimento delle conoscenze pregresse sfrutta priorità 3D della testa derivate da un ampio dataset dinamico multi-vista, mentre la fase di creazione dell'avatar applica queste priorità per la personalizzazione con pochi dati. Il nostro approccio cattura efficacemente queste priorità utilizzando una rete auto-decodificatore basata su Gaussian Splatting con modellazione dinamica basata su parti. Il nostro metodo impiega una codifica condivisa per l'identità con codici latenti personalizzati per singole identità, al fine di apprendere gli attributi delle primitive gaussiane. Durante la fase di creazione dell'avatar, otteniamo una rapida personalizzazione dell'avatar della testa sfruttando strategie di inversione e fine-tuning. Esperimenti estensivi dimostrano che il nostro modello sfrutta efficacemente le priorità della testa e le generalizza con successo per la personalizzazione con pochi dati, raggiungendo una qualità di rendering foto-realistica, coerenza multi-vista e animazione stabile.
English
In this paper, we present a novel 3D head avatar creation approach capable of
generalizing from few-shot in-the-wild data with high-fidelity and animatable
robustness. Given the underconstrained nature of this problem, incorporating
prior knowledge is essential. Therefore, we propose a framework comprising
prior learning and avatar creation phases. The prior learning phase leverages
3D head priors derived from a large-scale multi-view dynamic dataset, and the
avatar creation phase applies these priors for few-shot personalization. Our
approach effectively captures these priors by utilizing a Gaussian
Splatting-based auto-decoder network with part-based dynamic modeling. Our
method employs identity-shared encoding with personalized latent codes for
individual identities to learn the attributes of Gaussian primitives. During
the avatar creation phase, we achieve fast head avatar personalization by
leveraging inversion and fine-tuning strategies. Extensive experiments
demonstrate that our model effectively exploits head priors and successfully
generalizes them to few-shot personalization, achieving photo-realistic
rendering quality, multi-view consistency, and stable animation.