NPGA: Avatar Gaussiani Neurali Parametrici
NPGA: Neural Parametric Gaussian Avatars
May 29, 2024
Autori: Simon Giebenhain, Tobias Kirschstein, Martin Rünz, Lourdes Agapito, Matthias Nießner
cs.AI
Abstract
La creazione di versioni digitali ad alta fedeltà di teste umane rappresenta un importante passo avanti nel processo di integrazione di componenti virtuali nella nostra vita quotidiana. Costruire tali avatar è un problema di ricerca impegnativo, a causa dell'elevata richiesta di fotorealismo e di prestazioni di rendering in tempo reale. In questo lavoro, proponiamo Neural Parametric Gaussian Avatars (NPGA), un approccio basato sui dati per creare avatar ad alta fedeltà e controllabili a partire da registrazioni video multi-vista. Costruiamo il nostro metodo attorno al 3D Gaussian Splatting per la sua altamente efficiente capacità di rendering e per ereditare la flessibilità topologica delle nuvole di punti. A differenza dei lavori precedenti, condizioniamo la dinamica dei nostri avatar sullo spazio espressivo ricco dei modelli di testa neurali parametrici (NPHM), anziché su modelli 3DMM basati su mesh. A tal fine, distilliamo il campo di deformazione inversa del nostro NPHM sottostante in deformazioni dirette compatibili con il rendering basato su rasterizzazione. Tutti i dettagli su scala fine dipendenti dall'espressione vengono appresi dai video multi-vista. Per aumentare la capacità rappresentativa dei nostri avatar, arricchiamo la nuvola di punti gaussiana canonica utilizzando caratteristiche latenti per primitiva che governano il suo comportamento dinamico. Per regolarizzare questa maggiore espressività dinamica, proponiamo termini di Laplaciano sulle caratteristiche latenti e sulle dinamiche previste. Valutiamo il nostro metodo sul dataset pubblico NeRSemble, dimostrando che NPGA supera significativamente i precedenti avatar all'avanguardia nel compito di auto-reinterpretazione di 2.6 PSNR. Inoltre, dimostriamo capacità di animazione accurate a partire da video monoculari del mondo reale.
English
The creation of high-fidelity, digital versions of human heads is an
important stepping stone in the process of further integrating virtual
components into our everyday lives. Constructing such avatars is a challenging
research problem, due to a high demand for photo-realism and real-time
rendering performance. In this work, we propose Neural Parametric Gaussian
Avatars (NPGA), a data-driven approach to create high-fidelity, controllable
avatars from multi-view video recordings. We build our method around 3D
Gaussian Splatting for its highly efficient rendering and to inherit the
topological flexibility of point clouds. In contrast to previous work, we
condition our avatars' dynamics on the rich expression space of neural
parametric head models (NPHM), instead of mesh-based 3DMMs. To this end, we
distill the backward deformation field of our underlying NPHM into forward
deformations which are compatible with rasterization-based rendering. All
remaining fine-scale, expression-dependent details are learned from the
multi-view videos. To increase the representational capacity of our avatars, we
augment the canonical Gaussian point cloud using per-primitive latent features
which govern its dynamic behavior. To regularize this increased dynamic
expressivity, we propose Laplacian terms on the latent features and predicted
dynamics. We evaluate our method on the public NeRSemble dataset, demonstrating
that NPGA significantly outperforms the previous state-of-the-art avatars on
the self-reenactment task by 2.6 PSNR. Furthermore, we demonstrate accurate
animation capabilities from real-world monocular videos.