NeRSemble: 다중 시점 방사장 복원을 통한 인간 두부 재구성
NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads
May 4, 2023
저자: Tobias Kirschstein, Shenhan Qian, Simon Giebenhain, Tim Walter, Matthias Nießner
cs.AI
초록
우리는 인간의 머리를 고해상도로 재현된 라디언스 필드로 복원하고, 시간에 따른 애니메이션을 포착하며, 임의의 시간 단계에서 새로운 시점에서의 재렌더링을 합성하는 데 초점을 맞춥니다. 이를 위해, 우리는 16개의 보정된 머신 비전 카메라로 구성된 새로운 멀티뷰 캡처 시스템을 제안합니다. 이 시스템은 7.1 MP 해상도와 초당 73프레임으로 시간 동기화된 이미지를 기록합니다. 이 설정을 통해, 우리는 220명 이상의 인간 머리를 포함한 4700개 이상의 고해상도, 고프레임레이트 시퀀스로 구성된 새로운 데이터셋을 수집하고, 이를 바탕으로 새로운 인간 머리 복원 벤치마크를 소개합니다. 기록된 시퀀스는 머리 움직임, 자연스러운 표정, 감정, 그리고 구어를 포함한 다양한 얼굴 동역학을 다룹니다. 고해상도 인간 머리를 복원하기 위해, 우리는 해시 앙상블을 사용한 동적 신경 라디언스 필드(NeRSemble)를 제안합니다. 우리는 변형 필드와 3D 다중 해상도 해시 인코딩의 앙상블을 결합하여 장면 동역학을 표현합니다. 변형 필드는 단순한 장면 움직임을 정밀하게 모델링할 수 있게 해주며, 해시 인코딩 앙상블은 복잡한 동역학을 표현하는 데 도움을 줍니다. 결과적으로, 우리는 시간에 따른 움직임을 포착하고 임의의 새로운 시점에서의 재렌더링을 용이하게 하는 인간 머리의 라디언스 필드 표현을 얻습니다. 일련의 실험을 통해, 우리는 우리 방법의 설계 선택을 탐구하고, 우리의 접근 방식이 최신 동적 라디언스 필드 접근법을 상당한 차이로 능가함을 입증합니다.
English
We focus on reconstructing high-fidelity radiance fields of human heads,
capturing their animations over time, and synthesizing re-renderings from novel
viewpoints at arbitrary time steps. To this end, we propose a new multi-view
capture setup composed of 16 calibrated machine vision cameras that record
time-synchronized images at 7.1 MP resolution and 73 frames per second. With
our setup, we collect a new dataset of over 4700 high-resolution,
high-framerate sequences of more than 220 human heads, from which we introduce
a new human head reconstruction benchmark. The recorded sequences cover a wide
range of facial dynamics, including head motions, natural expressions,
emotions, and spoken language. In order to reconstruct high-fidelity human
heads, we propose Dynamic Neural Radiance Fields using Hash Ensembles
(NeRSemble). We represent scene dynamics by combining a deformation field and
an ensemble of 3D multi-resolution hash encodings. The deformation field allows
for precise modeling of simple scene movements, while the ensemble of hash
encodings helps to represent complex dynamics. As a result, we obtain radiance
field representations of human heads that capture motion over time and
facilitate re-rendering of arbitrary novel viewpoints. In a series of
experiments, we explore the design choices of our method and demonstrate that
our approach outperforms state-of-the-art dynamic radiance field approaches by
a significant margin.