NPGA: Нейронные параметрические гауссовы аватары
NPGA: Neural Parametric Gaussian Avatars
May 29, 2024
Авторы: Simon Giebenhain, Tobias Kirschstein, Martin Rünz, Lourdes Agapito, Matthias Nießner
cs.AI
Аннотация
Создание высокодетализированных цифровых версий голов человека является важным этапом в процессе дальнейшей интеграции виртуальных компонентов в наш повседневный мир. Конструирование таких аватаров представляет собой сложную исследовательскую задачу из-за высокого спроса на фотореализм и производительность реального времени рендеринга. В данной работе мы предлагаем Нейронные Параметрические Гауссовы Аватары (NPGA), основанный на данных подход к созданию высокодетализированных, управляемых аватаров из многоплановых видеозаписей. Мы строим наш метод вокруг трехмерного Гауссова Сплетения за его высокую эффективность рендеринга и возможность наследовать топологическую гибкость облаков точек. В отличие от предыдущих работ, мы условно привязываем динамику наших аватаров к богатому пространству выражений нейронных параметрических моделей головы (NPHM), вместо трехмерных мешей на основе 3DMMs. Для этого мы дистиллируем обратное поле деформации нашей базовой NPHM в прямые деформации, совместимые с растеризационным рендерингом. Все оставшиеся детали мелкой детализации, зависящие от выражений, изучаются из многоплановых видеозаписей. Для увеличения репрезентативной способности наших аватаров мы дополняем каноническое гауссово облако точек с использованием латентных признаков на уровне примитивов, управляющих его динамическим поведением. Для регуляризации этой увеличенной динамической экспрессивности мы предлагаем лапласианские термины на латентных признаках и предсказанных динамиках. Мы оцениваем наш метод на общедоступном наборе данных NeRSemble, демонстрируя, что NPGA значительно превосходит предыдущие передовые аватары в задаче самоповторения на 2.6 PSNR. Кроме того, мы демонстрируем точные возможности анимации из видеозаписей из реального мира.
English
The creation of high-fidelity, digital versions of human heads is an
important stepping stone in the process of further integrating virtual
components into our everyday lives. Constructing such avatars is a challenging
research problem, due to a high demand for photo-realism and real-time
rendering performance. In this work, we propose Neural Parametric Gaussian
Avatars (NPGA), a data-driven approach to create high-fidelity, controllable
avatars from multi-view video recordings. We build our method around 3D
Gaussian Splatting for its highly efficient rendering and to inherit the
topological flexibility of point clouds. In contrast to previous work, we
condition our avatars' dynamics on the rich expression space of neural
parametric head models (NPHM), instead of mesh-based 3DMMs. To this end, we
distill the backward deformation field of our underlying NPHM into forward
deformations which are compatible with rasterization-based rendering. All
remaining fine-scale, expression-dependent details are learned from the
multi-view videos. To increase the representational capacity of our avatars, we
augment the canonical Gaussian point cloud using per-primitive latent features
which govern its dynamic behavior. To regularize this increased dynamic
expressivity, we propose Laplacian terms on the latent features and predicted
dynamics. We evaluate our method on the public NeRSemble dataset, demonstrating
that NPGA significantly outperforms the previous state-of-the-art avatars on
the self-reenactment task by 2.6 PSNR. Furthermore, we demonstrate accurate
animation capabilities from real-world monocular videos.Summary
AI-Generated Summary