NPGA: Avatares Gaussianos Paramétricos Neuronales
NPGA: Neural Parametric Gaussian Avatars
May 29, 2024
Autores: Simon Giebenhain, Tobias Kirschstein, Martin Rünz, Lourdes Agapito, Matthias Nießner
cs.AI
Resumen
La creación de versiones digitales de alta fidelidad de cabezas humanas representa un paso importante en el proceso de integrar componentes virtuales en nuestra vida cotidiana. Construir tales avatares es un problema de investigación desafiante, debido a la alta demanda de fotorrealismo y rendimiento de renderizado en tiempo real. En este trabajo, proponemos Avatares Gaussianos Paramétricos Neuronales (NPGA), un enfoque basado en datos para crear avatares de alta fidelidad y controlables a partir de grabaciones de video multicámara. Construimos nuestro método alrededor de *3D Gaussian Splatting* por su renderizado altamente eficiente y para heredar la flexibilidad topológica de las nubes de puntos. A diferencia de trabajos anteriores, condicionamos la dinámica de nuestros avatares en el espacio de expresiones rico de los modelos de cabeza paramétricos neuronales (NPHM), en lugar de en modelos 3DMM basados en mallas. Para ello, destilamos el campo de deformación inversa de nuestro NPHM subyacente en deformaciones directas compatibles con el renderizado basado en rasterización. Todos los detalles finos dependientes de la expresión se aprenden a partir de los videos multicámara. Para aumentar la capacidad representativa de nuestros avatares, aumentamos la nube de puntos gaussiana canónica utilizando características latentes por primitiva que gobiernan su comportamiento dinámico. Para regular esta mayor expresividad dinámica, proponemos términos de Laplaciano sobre las características latentes y las dinámicas predichas. Evaluamos nuestro método en el conjunto de datos público NeRSemble, demostrando que NPGA supera significativamente a los avatares de última generación anteriores en la tarea de auto-recreación con una mejora de 2.6 PSNR. Además, demostramos capacidades precisas de animación a partir de videos monoculares del mundo real.
English
The creation of high-fidelity, digital versions of human heads is an
important stepping stone in the process of further integrating virtual
components into our everyday lives. Constructing such avatars is a challenging
research problem, due to a high demand for photo-realism and real-time
rendering performance. In this work, we propose Neural Parametric Gaussian
Avatars (NPGA), a data-driven approach to create high-fidelity, controllable
avatars from multi-view video recordings. We build our method around 3D
Gaussian Splatting for its highly efficient rendering and to inherit the
topological flexibility of point clouds. In contrast to previous work, we
condition our avatars' dynamics on the rich expression space of neural
parametric head models (NPHM), instead of mesh-based 3DMMs. To this end, we
distill the backward deformation field of our underlying NPHM into forward
deformations which are compatible with rasterization-based rendering. All
remaining fine-scale, expression-dependent details are learned from the
multi-view videos. To increase the representational capacity of our avatars, we
augment the canonical Gaussian point cloud using per-primitive latent features
which govern its dynamic behavior. To regularize this increased dynamic
expressivity, we propose Laplacian terms on the latent features and predicted
dynamics. We evaluate our method on the public NeRSemble dataset, demonstrating
that NPGA significantly outperforms the previous state-of-the-art avatars on
the self-reenactment task by 2.6 PSNR. Furthermore, we demonstrate accurate
animation capabilities from real-world monocular videos.Summary
AI-Generated Summary