ChatPaper.aiChatPaper

NPGA: Avatares Gaussianos Paramétricos Neurais

NPGA: Neural Parametric Gaussian Avatars

May 29, 2024
Autores: Simon Giebenhain, Tobias Kirschstein, Martin Rünz, Lourdes Agapito, Matthias Nießner
cs.AI

Resumo

A criação de versões digitais de alta fidelidade de cabeças humanas é um passo importante no processo de integrar ainda mais componentes virtuais em nosso cotidiano. Construir tais avatares é um problema de pesquisa desafiador, devido à alta demanda por fotorrealismo e desempenho de renderização em tempo real. Neste trabalho, propomos os Avatares Gaussianos Paramétricos Neurais (Neural Parametric Gaussian Avatars - NPGA), uma abordagem baseada em dados para criar avatares de alta fidelidade e controláveis a partir de gravações de vídeo multi-visão. Construímos nosso método em torno do 3D Gaussian Splatting devido à sua renderização altamente eficiente e para herdar a flexibilidade topológica de nuvens de pontos. Em contraste com trabalhos anteriores, condicionamos a dinâmica de nossos avatares no espaço rico de expressões dos modelos de cabeça paramétricos neurais (Neural Parametric Head Models - NPHM), em vez de modelos 3DMM baseados em malhas. Para isso, destilamos o campo de deformação reversa do nosso NPHM subjacente em deformações diretas que são compatíveis com a renderização baseada em rasterização. Todos os detalhes finos dependentes de expressão são aprendidos a partir dos vídeos multi-visão. Para aumentar a capacidade representacional de nossos avatares, aumentamos a nuvem de pontos Gaussianos canônica usando características latentes por primitiva que governam seu comportamento dinâmico. Para regular essa maior expressividade dinâmica, propomos termos Laplacianos nas características latentes e nas dinâmicas previstas. Avaliamos nosso método no conjunto de dados público NeRSemble, demonstrando que o NPGA supera significativamente os avatares de última geração anteriores na tarefa de auto-reencenação por 2,6 PSNR. Além disso, demonstramos capacidades precisas de animação a partir de vídeos monoculares do mundo real.
English
The creation of high-fidelity, digital versions of human heads is an important stepping stone in the process of further integrating virtual components into our everyday lives. Constructing such avatars is a challenging research problem, due to a high demand for photo-realism and real-time rendering performance. In this work, we propose Neural Parametric Gaussian Avatars (NPGA), a data-driven approach to create high-fidelity, controllable avatars from multi-view video recordings. We build our method around 3D Gaussian Splatting for its highly efficient rendering and to inherit the topological flexibility of point clouds. In contrast to previous work, we condition our avatars' dynamics on the rich expression space of neural parametric head models (NPHM), instead of mesh-based 3DMMs. To this end, we distill the backward deformation field of our underlying NPHM into forward deformations which are compatible with rasterization-based rendering. All remaining fine-scale, expression-dependent details are learned from the multi-view videos. To increase the representational capacity of our avatars, we augment the canonical Gaussian point cloud using per-primitive latent features which govern its dynamic behavior. To regularize this increased dynamic expressivity, we propose Laplacian terms on the latent features and predicted dynamics. We evaluate our method on the public NeRSemble dataset, demonstrating that NPGA significantly outperforms the previous state-of-the-art avatars on the self-reenactment task by 2.6 PSNR. Furthermore, we demonstrate accurate animation capabilities from real-world monocular videos.
PDF100December 12, 2024