HeadGAP: Avatar de Cabeça 3D de Poucas Amostras por meio de Priors Gaussianos Generalizáveis
HeadGAP: Few-shot 3D Head Avatar via Generalizable Gaussian Priors
August 12, 2024
Autores: Xiaozheng Zheng, Chao Wen, Zhaohu Li, Weiyi Zhang, Zhuo Su, Xu Chang, Yang Zhao, Zheng Lv, Xiaoyuan Zhang, Yongjie Zhang, Guidong Wang, Lan Xu
cs.AI
Resumo
Neste artigo, apresentamos uma abordagem inovadora para a criação de avatares tridimensionais de cabeça capaz de generalizar a partir de dados in-the-wild de poucas amostras com alta fidelidade e robustez animável. Dada a natureza subdeterminada desse problema, incorporar conhecimento prévio é essencial. Portanto, propomos um framework composto por fases de aprendizado prévio e criação de avatar. A fase de aprendizado prévio aproveita conhecimentos prévios de cabeça 3D derivados de um grande conjunto de dados dinâmicos multi-visão, e a fase de criação de avatar aplica esses conhecimentos prévios para personalização de poucas amostras. Nossa abordagem captura efetivamente esses conhecimentos prévios ao utilizar uma rede auto-decodificadora baseada em Splatting Gaussiano com modelagem dinâmica baseada em partes. Nosso método emprega codificação compartilhada de identidade com códigos latentes personalizados para identidades individuais para aprender os atributos de primitivas Gaussianas. Durante a fase de criação de avatar, alcançamos uma rápida personalização de avatares de cabeça por meio de estratégias de inversão e ajuste fino. Experimentos extensivos demonstram que nosso modelo explora efetivamente conhecimentos prévios de cabeça e os generaliza com sucesso para personalização de poucas amostras, alcançando qualidade de renderização fotorrealística, consistência multi-visão e animação estável.
English
In this paper, we present a novel 3D head avatar creation approach capable of
generalizing from few-shot in-the-wild data with high-fidelity and animatable
robustness. Given the underconstrained nature of this problem, incorporating
prior knowledge is essential. Therefore, we propose a framework comprising
prior learning and avatar creation phases. The prior learning phase leverages
3D head priors derived from a large-scale multi-view dynamic dataset, and the
avatar creation phase applies these priors for few-shot personalization. Our
approach effectively captures these priors by utilizing a Gaussian
Splatting-based auto-decoder network with part-based dynamic modeling. Our
method employs identity-shared encoding with personalized latent codes for
individual identities to learn the attributes of Gaussian primitives. During
the avatar creation phase, we achieve fast head avatar personalization by
leveraging inversion and fine-tuning strategies. Extensive experiments
demonstrate that our model effectively exploits head priors and successfully
generalizes them to few-shot personalization, achieving photo-realistic
rendering quality, multi-view consistency, and stable animation.Summary
AI-Generated Summary