ChatPaper.aiChatPaper

NPGA: 신경망 기반 파라메트릭 가우시안 아바타

NPGA: Neural Parametric Gaussian Avatars

May 29, 2024
저자: Simon Giebenhain, Tobias Kirschstein, Martin Rünz, Lourdes Agapito, Matthias Nießner
cs.AI

초록

고해상도의 디지털 인간 머리 모델을 생성하는 것은 가상 요소를 우리의 일상생활에 더욱 통합하기 위한 중요한 단계입니다. 이러한 아바타를 구축하는 것은 사진과 같은 현실감과 실시간 렌더링 성능에 대한 높은 요구로 인해 어려운 연구 과제입니다. 본 연구에서는 다중 시점 비디오 기록을 기반으로 고해상도이고 제어 가능한 아바타를 생성하기 위한 데이터 기반 접근 방식인 Neural Parametric Gaussian Avatars(NPGA)를 제안합니다. 우리는 고효율 렌더링과 포인트 클라우드의 위상적 유연성을 계승하기 위해 3D Gaussian Splatting을 중심으로 방법론을 구축했습니다. 기존 연구와 달리, 우리는 메시 기반 3DMM 대신 신경망 파라미터 헤드 모델(NPHM)의 풍부한 표현 공간에 아바타의 동적 특성을 조건화합니다. 이를 위해, 우리는 기본 NPHM의 역방향 변형 필드를 래스터화 기반 렌더링과 호환되는 순방향 변형으로 정제합니다. 나머지 미세한 표현 의존적 세부 사항은 다중 시점 비디오로부터 학습됩니다. 아바타의 표현 능력을 높이기 위해, 우리는 동적 행동을 제어하는 프리미티브별 잠재 특징을 사용하여 정규화된 가우시안 포인트 클라우드를 확장합니다. 이러한 증가된 동적 표현성을 규제하기 위해, 우리는 잠재 특징과 예측된 동적 특성에 라플라시안 항을 제안합니다. 우리는 공개된 NeRSemble 데이터셋에서 우리의 방법을 평가하며, NPGA가 자체 재연 작업에서 이전 최첨단 아바타보다 2.6 PSNR로 크게 우수함을 입증했습니다. 또한, 실제 단안 비디오로부터 정확한 애니메이션 능력을 보여줍니다.
English
The creation of high-fidelity, digital versions of human heads is an important stepping stone in the process of further integrating virtual components into our everyday lives. Constructing such avatars is a challenging research problem, due to a high demand for photo-realism and real-time rendering performance. In this work, we propose Neural Parametric Gaussian Avatars (NPGA), a data-driven approach to create high-fidelity, controllable avatars from multi-view video recordings. We build our method around 3D Gaussian Splatting for its highly efficient rendering and to inherit the topological flexibility of point clouds. In contrast to previous work, we condition our avatars' dynamics on the rich expression space of neural parametric head models (NPHM), instead of mesh-based 3DMMs. To this end, we distill the backward deformation field of our underlying NPHM into forward deformations which are compatible with rasterization-based rendering. All remaining fine-scale, expression-dependent details are learned from the multi-view videos. To increase the representational capacity of our avatars, we augment the canonical Gaussian point cloud using per-primitive latent features which govern its dynamic behavior. To regularize this increased dynamic expressivity, we propose Laplacian terms on the latent features and predicted dynamics. We evaluate our method on the public NeRSemble dataset, demonstrating that NPGA significantly outperforms the previous state-of-the-art avatars on the self-reenactment task by 2.6 PSNR. Furthermore, we demonstrate accurate animation capabilities from real-world monocular videos.

Summary

AI-Generated Summary

PDF100December 12, 2024