ChatPaper.aiChatPaper

NPGA: Нейронные параметрические гауссовы аватары

NPGA: Neural Parametric Gaussian Avatars

May 29, 2024
Авторы: Simon Giebenhain, Tobias Kirschstein, Martin Rünz, Lourdes Agapito, Matthias Nießner
cs.AI

Аннотация

Создание высокодетализированных цифровых версий голов человека является важным этапом в процессе дальнейшей интеграции виртуальных компонентов в наш повседневный мир. Конструирование таких аватаров представляет собой сложную исследовательскую задачу из-за высокого спроса на фотореализм и производительность реального времени рендеринга. В данной работе мы предлагаем Нейронные Параметрические Гауссовы Аватары (NPGA), основанный на данных подход к созданию высокодетализированных, управляемых аватаров из многоплановых видеозаписей. Мы строим наш метод вокруг трехмерного Гауссова Сплетения за его высокую эффективность рендеринга и возможность наследовать топологическую гибкость облаков точек. В отличие от предыдущих работ, мы условно привязываем динамику наших аватаров к богатому пространству выражений нейронных параметрических моделей головы (NPHM), вместо трехмерных мешей на основе 3DMMs. Для этого мы дистиллируем обратное поле деформации нашей базовой NPHM в прямые деформации, совместимые с растеризационным рендерингом. Все оставшиеся детали мелкой детализации, зависящие от выражений, изучаются из многоплановых видеозаписей. Для увеличения репрезентативной способности наших аватаров мы дополняем каноническое гауссово облако точек с использованием латентных признаков на уровне примитивов, управляющих его динамическим поведением. Для регуляризации этой увеличенной динамической экспрессивности мы предлагаем лапласианские термины на латентных признаках и предсказанных динамиках. Мы оцениваем наш метод на общедоступном наборе данных NeRSemble, демонстрируя, что NPGA значительно превосходит предыдущие передовые аватары в задаче самоповторения на 2.6 PSNR. Кроме того, мы демонстрируем точные возможности анимации из видеозаписей из реального мира.
English
The creation of high-fidelity, digital versions of human heads is an important stepping stone in the process of further integrating virtual components into our everyday lives. Constructing such avatars is a challenging research problem, due to a high demand for photo-realism and real-time rendering performance. In this work, we propose Neural Parametric Gaussian Avatars (NPGA), a data-driven approach to create high-fidelity, controllable avatars from multi-view video recordings. We build our method around 3D Gaussian Splatting for its highly efficient rendering and to inherit the topological flexibility of point clouds. In contrast to previous work, we condition our avatars' dynamics on the rich expression space of neural parametric head models (NPHM), instead of mesh-based 3DMMs. To this end, we distill the backward deformation field of our underlying NPHM into forward deformations which are compatible with rasterization-based rendering. All remaining fine-scale, expression-dependent details are learned from the multi-view videos. To increase the representational capacity of our avatars, we augment the canonical Gaussian point cloud using per-primitive latent features which govern its dynamic behavior. To regularize this increased dynamic expressivity, we propose Laplacian terms on the latent features and predicted dynamics. We evaluate our method on the public NeRSemble dataset, demonstrating that NPGA significantly outperforms the previous state-of-the-art avatars on the self-reenactment task by 2.6 PSNR. Furthermore, we demonstrate accurate animation capabilities from real-world monocular videos.

Summary

AI-Generated Summary

PDF100December 12, 2024