NPGA: Neurale Parametrische Gaussische Avatars
NPGA: Neural Parametric Gaussian Avatars
May 29, 2024
Auteurs: Simon Giebenhain, Tobias Kirschstein, Martin Rünz, Lourdes Agapito, Matthias Nießner
cs.AI
Samenvatting
Het creëren van hoogwaardige, digitale versies van menselijke hoofden is een belangrijke stap in het proces van het verder integreren van virtuele componenten in ons dagelijks leven. Het construeren van dergelijke avatars is een uitdagend onderzoeksprobleem, vanwege de hoge eisen aan fotorealisme en real-time renderingprestaties. In dit werk stellen we Neural Parametric Gaussian Avatars (NPGA) voor, een data-gedreven benadering om hoogwaardige, bestuurbare avatars te creëren vanuit multi-view video-opnames. We baseren onze methode op 3D Gaussian Splatting vanwege de zeer efficiënte rendering en om de topologische flexibiliteit van puntenwolken te behouden. In tegenstelling tot eerder werk, conditioneren we de dynamiek van onze avatars op de rijke expressieruimte van neurale parametrische hoofdmodellen (NPHM), in plaats van op mesh-gebaseerde 3DMMs. Hiertoe distilleren we het achterwaartse vervormingsveld van ons onderliggende NPHM in voorwaartse vervormingen die compatibel zijn met rasterisatie-gebaseerde rendering. Alle overige fijnschalige, expressie-afhankelijke details worden geleerd uit de multi-view video's. Om de representatiecapaciteit van onze avatars te vergroten, verrijken we het canonieke Gaussian puntenwolk met per-primitieve latente kenmerken die het dynamische gedrag sturen. Om deze verhoogde dynamische expressiviteit te reguleren, stellen we Laplaciaanse termen voor op de latente kenmerken en voorspelde dynamiek. We evalueren onze methode op de openbare NeRSemble dataset, waaruit blijkt dat NPGA de vorige state-of-the-art avatars significant overtreft in de zelf-heruitvoeringstaak met 2.6 PSNR. Bovendien demonstreren we nauwkeurige animatiemogelijkheden vanuit real-world monoscopische video's.
English
The creation of high-fidelity, digital versions of human heads is an
important stepping stone in the process of further integrating virtual
components into our everyday lives. Constructing such avatars is a challenging
research problem, due to a high demand for photo-realism and real-time
rendering performance. In this work, we propose Neural Parametric Gaussian
Avatars (NPGA), a data-driven approach to create high-fidelity, controllable
avatars from multi-view video recordings. We build our method around 3D
Gaussian Splatting for its highly efficient rendering and to inherit the
topological flexibility of point clouds. In contrast to previous work, we
condition our avatars' dynamics on the rich expression space of neural
parametric head models (NPHM), instead of mesh-based 3DMMs. To this end, we
distill the backward deformation field of our underlying NPHM into forward
deformations which are compatible with rasterization-based rendering. All
remaining fine-scale, expression-dependent details are learned from the
multi-view videos. To increase the representational capacity of our avatars, we
augment the canonical Gaussian point cloud using per-primitive latent features
which govern its dynamic behavior. To regularize this increased dynamic
expressivity, we propose Laplacian terms on the latent features and predicted
dynamics. We evaluate our method on the public NeRSemble dataset, demonstrating
that NPGA significantly outperforms the previous state-of-the-art avatars on
the self-reenactment task by 2.6 PSNR. Furthermore, we demonstrate accurate
animation capabilities from real-world monocular videos.