ChatPaper.aiChatPaper

NPGA: Neurale Parametrische Gaussische Avatars

NPGA: Neural Parametric Gaussian Avatars

May 29, 2024
Auteurs: Simon Giebenhain, Tobias Kirschstein, Martin Rünz, Lourdes Agapito, Matthias Nießner
cs.AI

Samenvatting

Het creëren van hoogwaardige, digitale versies van menselijke hoofden is een belangrijke stap in het proces van het verder integreren van virtuele componenten in ons dagelijks leven. Het construeren van dergelijke avatars is een uitdagend onderzoeksprobleem, vanwege de hoge eisen aan fotorealisme en real-time renderingprestaties. In dit werk stellen we Neural Parametric Gaussian Avatars (NPGA) voor, een data-gedreven benadering om hoogwaardige, bestuurbare avatars te creëren vanuit multi-view video-opnames. We baseren onze methode op 3D Gaussian Splatting vanwege de zeer efficiënte rendering en om de topologische flexibiliteit van puntenwolken te behouden. In tegenstelling tot eerder werk, conditioneren we de dynamiek van onze avatars op de rijke expressieruimte van neurale parametrische hoofdmodellen (NPHM), in plaats van op mesh-gebaseerde 3DMMs. Hiertoe distilleren we het achterwaartse vervormingsveld van ons onderliggende NPHM in voorwaartse vervormingen die compatibel zijn met rasterisatie-gebaseerde rendering. Alle overige fijnschalige, expressie-afhankelijke details worden geleerd uit de multi-view video's. Om de representatiecapaciteit van onze avatars te vergroten, verrijken we het canonieke Gaussian puntenwolk met per-primitieve latente kenmerken die het dynamische gedrag sturen. Om deze verhoogde dynamische expressiviteit te reguleren, stellen we Laplaciaanse termen voor op de latente kenmerken en voorspelde dynamiek. We evalueren onze methode op de openbare NeRSemble dataset, waaruit blijkt dat NPGA de vorige state-of-the-art avatars significant overtreft in de zelf-heruitvoeringstaak met 2.6 PSNR. Bovendien demonstreren we nauwkeurige animatiemogelijkheden vanuit real-world monoscopische video's.
English
The creation of high-fidelity, digital versions of human heads is an important stepping stone in the process of further integrating virtual components into our everyday lives. Constructing such avatars is a challenging research problem, due to a high demand for photo-realism and real-time rendering performance. In this work, we propose Neural Parametric Gaussian Avatars (NPGA), a data-driven approach to create high-fidelity, controllable avatars from multi-view video recordings. We build our method around 3D Gaussian Splatting for its highly efficient rendering and to inherit the topological flexibility of point clouds. In contrast to previous work, we condition our avatars' dynamics on the rich expression space of neural parametric head models (NPHM), instead of mesh-based 3DMMs. To this end, we distill the backward deformation field of our underlying NPHM into forward deformations which are compatible with rasterization-based rendering. All remaining fine-scale, expression-dependent details are learned from the multi-view videos. To increase the representational capacity of our avatars, we augment the canonical Gaussian point cloud using per-primitive latent features which govern its dynamic behavior. To regularize this increased dynamic expressivity, we propose Laplacian terms on the latent features and predicted dynamics. We evaluate our method on the public NeRSemble dataset, demonstrating that NPGA significantly outperforms the previous state-of-the-art avatars on the self-reenactment task by 2.6 PSNR. Furthermore, we demonstrate accurate animation capabilities from real-world monocular videos.
PDF100December 12, 2024