ChatPaper.aiChatPaper

NPGA: Neuronale parametrische Gaußsche Avatare

NPGA: Neural Parametric Gaussian Avatars

May 29, 2024
Autoren: Simon Giebenhain, Tobias Kirschstein, Martin Rünz, Lourdes Agapito, Matthias Nießner
cs.AI

Zusammenfassung

Die Erstellung hochwertiger, digitaler Versionen von menschlichen Köpfen ist ein wichtiger Schritt im Prozess der weiteren Integration virtueller Komponenten in unseren Alltag. Die Konstruktion solcher Avatare ist ein anspruchsvolles Forschungsproblem aufgrund der hohen Nachfrage nach fotorealistischer Darstellung und Echtzeit-Rendering-Leistung. In dieser Arbeit schlagen wir Neural Parametric Gaussian Avatars (NPGA) vor, einen datengesteuerten Ansatz zur Erstellung hochwertiger, steuerbarer Avatare aus Mehransichtsvideoaufnahmen. Wir bauen unsere Methode um 3D-Gaussian Splatting aufgrund seiner hocheffizienten Darstellung und der Vererbung der topologischen Flexibilität von Punktewolken. Im Gegensatz zu früheren Arbeiten konditionieren wir die Dynamik unserer Avatare auf den reichhaltigen Ausdrucksraum neuronaler parametrischer Kopfmodelle (NPHM) anstelle von meshbasierten 3DMMs. Zu diesem Zweck destillieren wir das rückwärtige Deformationsfeld unseres zugrunde liegenden NPHM in Vorwärtsdeformationen, die mit rasterbasiertem Rendering kompatibel sind. Alle verbleibenden feinskaligen, ausdrucksabhängigen Details werden aus den Mehransichtsvideos gelernt. Um die Repräsentationskapazität unserer Avatare zu erhöhen, erweitern wir die kanonische Gaußsche Punktewolke unter Verwendung von latenten Merkmalen pro Primitive, die ihr dynamisches Verhalten steuern. Zur Regulierung dieser erhöhten dynamischen Ausdrucksfähigkeit schlagen wir Laplacian-Terme auf den latenten Merkmalen und den vorhergesagten Dynamiken vor. Wir evaluieren unsere Methode am öffentlichen NeRSemble-Datensatz und zeigen, dass NPGA die bisherigen State-of-the-Art-Avatare bei der Selbstnachstellungsaufgabe um 2,6 PSNR signifikant übertrifft. Darüber hinaus zeigen wir präzise Animationsfähigkeiten aus monokularen Videos aus der realen Welt.
English
The creation of high-fidelity, digital versions of human heads is an important stepping stone in the process of further integrating virtual components into our everyday lives. Constructing such avatars is a challenging research problem, due to a high demand for photo-realism and real-time rendering performance. In this work, we propose Neural Parametric Gaussian Avatars (NPGA), a data-driven approach to create high-fidelity, controllable avatars from multi-view video recordings. We build our method around 3D Gaussian Splatting for its highly efficient rendering and to inherit the topological flexibility of point clouds. In contrast to previous work, we condition our avatars' dynamics on the rich expression space of neural parametric head models (NPHM), instead of mesh-based 3DMMs. To this end, we distill the backward deformation field of our underlying NPHM into forward deformations which are compatible with rasterization-based rendering. All remaining fine-scale, expression-dependent details are learned from the multi-view videos. To increase the representational capacity of our avatars, we augment the canonical Gaussian point cloud using per-primitive latent features which govern its dynamic behavior. To regularize this increased dynamic expressivity, we propose Laplacian terms on the latent features and predicted dynamics. We evaluate our method on the public NeRSemble dataset, demonstrating that NPGA significantly outperforms the previous state-of-the-art avatars on the self-reenactment task by 2.6 PSNR. Furthermore, we demonstrate accurate animation capabilities from real-world monocular videos.

Summary

AI-Generated Summary

PDF100December 12, 2024