NPGA: Neuronale parametrische Gaußsche Avatare
NPGA: Neural Parametric Gaussian Avatars
May 29, 2024
Autoren: Simon Giebenhain, Tobias Kirschstein, Martin Rünz, Lourdes Agapito, Matthias Nießner
cs.AI
Zusammenfassung
Die Erstellung hochwertiger, digitaler Versionen von menschlichen Köpfen ist ein wichtiger Schritt im Prozess der weiteren Integration virtueller Komponenten in unseren Alltag. Die Konstruktion solcher Avatare ist ein anspruchsvolles Forschungsproblem aufgrund der hohen Nachfrage nach fotorealistischer Darstellung und Echtzeit-Rendering-Leistung. In dieser Arbeit schlagen wir Neural Parametric Gaussian Avatars (NPGA) vor, einen datengesteuerten Ansatz zur Erstellung hochwertiger, steuerbarer Avatare aus Mehransichtsvideoaufnahmen. Wir bauen unsere Methode um 3D-Gaussian Splatting aufgrund seiner hocheffizienten Darstellung und der Vererbung der topologischen Flexibilität von Punktewolken. Im Gegensatz zu früheren Arbeiten konditionieren wir die Dynamik unserer Avatare auf den reichhaltigen Ausdrucksraum neuronaler parametrischer Kopfmodelle (NPHM) anstelle von meshbasierten 3DMMs. Zu diesem Zweck destillieren wir das rückwärtige Deformationsfeld unseres zugrunde liegenden NPHM in Vorwärtsdeformationen, die mit rasterbasiertem Rendering kompatibel sind. Alle verbleibenden feinskaligen, ausdrucksabhängigen Details werden aus den Mehransichtsvideos gelernt. Um die Repräsentationskapazität unserer Avatare zu erhöhen, erweitern wir die kanonische Gaußsche Punktewolke unter Verwendung von latenten Merkmalen pro Primitive, die ihr dynamisches Verhalten steuern. Zur Regulierung dieser erhöhten dynamischen Ausdrucksfähigkeit schlagen wir Laplacian-Terme auf den latenten Merkmalen und den vorhergesagten Dynamiken vor. Wir evaluieren unsere Methode am öffentlichen NeRSemble-Datensatz und zeigen, dass NPGA die bisherigen State-of-the-Art-Avatare bei der Selbstnachstellungsaufgabe um 2,6 PSNR signifikant übertrifft. Darüber hinaus zeigen wir präzise Animationsfähigkeiten aus monokularen Videos aus der realen Welt.
English
The creation of high-fidelity, digital versions of human heads is an
important stepping stone in the process of further integrating virtual
components into our everyday lives. Constructing such avatars is a challenging
research problem, due to a high demand for photo-realism and real-time
rendering performance. In this work, we propose Neural Parametric Gaussian
Avatars (NPGA), a data-driven approach to create high-fidelity, controllable
avatars from multi-view video recordings. We build our method around 3D
Gaussian Splatting for its highly efficient rendering and to inherit the
topological flexibility of point clouds. In contrast to previous work, we
condition our avatars' dynamics on the rich expression space of neural
parametric head models (NPHM), instead of mesh-based 3DMMs. To this end, we
distill the backward deformation field of our underlying NPHM into forward
deformations which are compatible with rasterization-based rendering. All
remaining fine-scale, expression-dependent details are learned from the
multi-view videos. To increase the representational capacity of our avatars, we
augment the canonical Gaussian point cloud using per-primitive latent features
which govern its dynamic behavior. To regularize this increased dynamic
expressivity, we propose Laplacian terms on the latent features and predicted
dynamics. We evaluate our method on the public NeRSemble dataset, demonstrating
that NPGA significantly outperforms the previous state-of-the-art avatars on
the self-reenactment task by 2.6 PSNR. Furthermore, we demonstrate accurate
animation capabilities from real-world monocular videos.Summary
AI-Generated Summary