NPGA: Avatares Gaussianos Paramétricos Neuronales

Resumen

La creación de versiones digitales de alta fidelidad de cabezas humanas representa un paso importante en el proceso de integrar componentes virtuales en nuestra vida cotidiana. Construir tales avatares es un problema de investigación desafiante, debido a la alta demanda de fotorrealismo y rendimiento de renderizado en tiempo real. En este trabajo, proponemos Avatares Gaussianos Paramétricos Neuronales (NPGA), un enfoque basado en datos para crear avatares de alta fidelidad y controlables a partir de grabaciones de video multicámara. Construimos nuestro método alrededor de *3D Gaussian Splatting* por su renderizado altamente eficiente y para heredar la flexibilidad topológica de las nubes de puntos. A diferencia de trabajos anteriores, condicionamos la dinámica de nuestros avatares en el espacio de expresiones rico de los modelos de cabeza paramétricos neuronales (NPHM), en lugar de en modelos 3DMM basados en mallas. Para ello, destilamos el campo de deformación inversa de nuestro NPHM subyacente en deformaciones directas compatibles con el renderizado basado en rasterización. Todos los detalles finos dependientes de la expresión se aprenden a partir de los videos multicámara. Para aumentar la capacidad representativa de nuestros avatares, aumentamos la nube de puntos gaussiana canónica utilizando características latentes por primitiva que gobiernan su comportamiento dinámico. Para regular esta mayor expresividad dinámica, proponemos términos de Laplaciano sobre las características latentes y las dinámicas predichas. Evaluamos nuestro método en el conjunto de datos público NeRSemble, demostrando que NPGA supera significativamente a los avatares de última generación anteriores en la tarea de auto-recreación con una mejora de 2.6 PSNR. Además, demostramos capacidades precisas de animación a partir de videos monoculares del mundo real.

English

The creation of high-fidelity, digital versions of human heads is an important stepping stone in the process of further integrating virtual components into our everyday lives. Constructing such avatars is a challenging research problem, due to a high demand for photo-realism and real-time rendering performance. In this work, we propose Neural Parametric Gaussian Avatars (NPGA), a data-driven approach to create high-fidelity, controllable avatars from multi-view video recordings. We build our method around 3D Gaussian Splatting for its highly efficient rendering and to inherit the topological flexibility of point clouds. In contrast to previous work, we condition our avatars' dynamics on the rich expression space of neural parametric head models (NPHM), instead of mesh-based 3DMMs. To this end, we distill the backward deformation field of our underlying NPHM into forward deformations which are compatible with rasterization-based rendering. All remaining fine-scale, expression-dependent details are learned from the multi-view videos. To increase the representational capacity of our avatars, we augment the canonical Gaussian point cloud using per-primitive latent features which govern its dynamic behavior. To regularize this increased dynamic expressivity, we propose Laplacian terms on the latent features and predicted dynamics. We evaluate our method on the public NeRSemble dataset, demonstrating that NPGA significantly outperforms the previous state-of-the-art avatars on the self-reenactment task by 2.6 PSNR. Furthermore, we demonstrate accurate animation capabilities from real-world monocular videos.

NPGA: Avatares Gaussianos Paramétricos Neuronales

NPGA: Neural Parametric Gaussian Avatars

Resumen

Support