NPGA: Avatar Gaussiani Neurali Parametrici

Abstract

La creazione di versioni digitali ad alta fedeltà di teste umane rappresenta un importante passo avanti nel processo di integrazione di componenti virtuali nella nostra vita quotidiana. Costruire tali avatar è un problema di ricerca impegnativo, a causa dell'elevata richiesta di fotorealismo e di prestazioni di rendering in tempo reale. In questo lavoro, proponiamo Neural Parametric Gaussian Avatars (NPGA), un approccio basato sui dati per creare avatar ad alta fedeltà e controllabili a partire da registrazioni video multi-vista. Costruiamo il nostro metodo attorno al 3D Gaussian Splatting per la sua altamente efficiente capacità di rendering e per ereditare la flessibilità topologica delle nuvole di punti. A differenza dei lavori precedenti, condizioniamo la dinamica dei nostri avatar sullo spazio espressivo ricco dei modelli di testa neurali parametrici (NPHM), anziché su modelli 3DMM basati su mesh. A tal fine, distilliamo il campo di deformazione inversa del nostro NPHM sottostante in deformazioni dirette compatibili con il rendering basato su rasterizzazione. Tutti i dettagli su scala fine dipendenti dall'espressione vengono appresi dai video multi-vista. Per aumentare la capacità rappresentativa dei nostri avatar, arricchiamo la nuvola di punti gaussiana canonica utilizzando caratteristiche latenti per primitiva che governano il suo comportamento dinamico. Per regolarizzare questa maggiore espressività dinamica, proponiamo termini di Laplaciano sulle caratteristiche latenti e sulle dinamiche previste. Valutiamo il nostro metodo sul dataset pubblico NeRSemble, dimostrando che NPGA supera significativamente i precedenti avatar all'avanguardia nel compito di auto-reinterpretazione di 2.6 PSNR. Inoltre, dimostriamo capacità di animazione accurate a partire da video monoculari del mondo reale.

English

The creation of high-fidelity, digital versions of human heads is an important stepping stone in the process of further integrating virtual components into our everyday lives. Constructing such avatars is a challenging research problem, due to a high demand for photo-realism and real-time rendering performance. In this work, we propose Neural Parametric Gaussian Avatars (NPGA), a data-driven approach to create high-fidelity, controllable avatars from multi-view video recordings. We build our method around 3D Gaussian Splatting for its highly efficient rendering and to inherit the topological flexibility of point clouds. In contrast to previous work, we condition our avatars' dynamics on the rich expression space of neural parametric head models (NPHM), instead of mesh-based 3DMMs. To this end, we distill the backward deformation field of our underlying NPHM into forward deformations which are compatible with rasterization-based rendering. All remaining fine-scale, expression-dependent details are learned from the multi-view videos. To increase the representational capacity of our avatars, we augment the canonical Gaussian point cloud using per-primitive latent features which govern its dynamic behavior. To regularize this increased dynamic expressivity, we propose Laplacian terms on the latent features and predicted dynamics. We evaluate our method on the public NeRSemble dataset, demonstrating that NPGA significantly outperforms the previous state-of-the-art avatars on the self-reenactment task by 2.6 PSNR. Furthermore, we demonstrate accurate animation capabilities from real-world monocular videos.

NPGA: Avatar Gaussiani Neurali Parametrici

NPGA: Neural Parametric Gaussian Avatars

Abstract

Support