HeadGAP: 3D-Kopfavatar mit wenigen Aufnahmen mithilfe generalisierbarer Gaußscher Prioritäten
HeadGAP: Few-shot 3D Head Avatar via Generalizable Gaussian Priors
August 12, 2024
Autoren: Xiaozheng Zheng, Chao Wen, Zhaohu Li, Weiyi Zhang, Zhuo Su, Xu Chang, Yang Zhao, Zheng Lv, Xiaoyuan Zhang, Yongjie Zhang, Guidong Wang, Lan Xu
cs.AI
Zusammenfassung
In diesem Paper präsentieren wir einen neuartigen Ansatz zur Erstellung von 3D-Kopf-Avataren, der in der Lage ist, aus wenigen in-the-wild Daten mit hoher Treue und animierbarer Robustheit zu verallgemeinern. Angesichts der unzureichenden Natur dieses Problems ist die Integration von Vorwissen unerlässlich. Daher schlagen wir ein Framework vor, das aus Phasen des Vorwissenslernens und der Avatar-Erstellung besteht. Die Phase des Vorwissenslernens nutzt 3D-Kopf-Vorwissen, das aus einem groß angelegten Multi-View-Dynamik-Datensatz abgeleitet ist, und die Phase der Avatar-Erstellung wendet dieses Vorwissen auf die Personalisierung mit wenigen Aufnahmen an. Unser Ansatz erfasst diese Vorwissen effektiv, indem er ein auf Gaussian Splatting basierendes Auto-Decodierungsnetzwerk mit partiellem dynamischem Modellieren verwendet. Unsere Methode verwendet Identitäts-geteilte Kodierung mit personalisierten latenten Codes für individuelle Identitäten, um die Attribute der Gauss'schen Primitiven zu erlernen. Während der Phase der Avatar-Erstellung erreichen wir eine schnelle Personalisierung von Kopf-Avataren durch die Nutzung von Inversions- und Feinabstimmungsstrategien. Umfangreiche Experimente zeigen, dass unser Modell Kopf-Vorwissen effektiv nutzt und erfolgreich auf die Personalisierung mit wenigen Aufnahmen verallgemeinert, wodurch eine fotorealistische Rendering-Qualität, Multi-View-Konsistenz und stabile Animation erreicht werden.
English
In this paper, we present a novel 3D head avatar creation approach capable of
generalizing from few-shot in-the-wild data with high-fidelity and animatable
robustness. Given the underconstrained nature of this problem, incorporating
prior knowledge is essential. Therefore, we propose a framework comprising
prior learning and avatar creation phases. The prior learning phase leverages
3D head priors derived from a large-scale multi-view dynamic dataset, and the
avatar creation phase applies these priors for few-shot personalization. Our
approach effectively captures these priors by utilizing a Gaussian
Splatting-based auto-decoder network with part-based dynamic modeling. Our
method employs identity-shared encoding with personalized latent codes for
individual identities to learn the attributes of Gaussian primitives. During
the avatar creation phase, we achieve fast head avatar personalization by
leveraging inversion and fine-tuning strategies. Extensive experiments
demonstrate that our model effectively exploits head priors and successfully
generalizes them to few-shot personalization, achieving photo-realistic
rendering quality, multi-view consistency, and stable animation.Summary
AI-Generated Summary