NeRSemble: マルチビューレイディアンスフィールドによる人間の頭部再構築
NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads
May 4, 2023
著者: Tobias Kirschstein, Shenhan Qian, Simon Giebenhain, Tim Walter, Matthias Nießner
cs.AI
要旨
私たちは、人間の頭部の高精細な放射輝度場の再構築、時間経過に伴うそのアニメーションの捕捉、そして任意の時間ステップにおける新規視点からの再レンダリングの合成に焦点を当てています。この目的のために、16台の校正済みマシンビジョンカメラで構成される新しいマルチビューキャプチャセットアップを提案します。このセットアップは、7.1メガピクセルの解像度と73フレーム/秒で時間同期された画像を記録します。このセットアップを用いて、220以上の人間の頭部からなる4700以上の高解像度・高フレームレートシーケンスの新しいデータセットを収集し、新たな人間の頭部再構築ベンチマークを導入します。記録されたシーケンスは、頭の動き、自然な表情、感情、そして話し言葉を含む幅広い顔のダイナミクスをカバーしています。
高精細な人間の頭部を再構築するために、ハッシュアンサンブルを用いた動的ニューラル放射輝度場(NeRSemble)を提案します。シーンのダイナミクスを、変形場と3D多解像度ハッシュエンコーディングのアンサンブルを組み合わせて表現します。変形場は単純なシーン動きの正確なモデリングを可能にし、ハッシュエンコーディングのアンサンブルは複雑なダイナミクスの表現を助けます。その結果、時間経過に伴う動きを捉え、任意の新規視点からの再レンダリングを容易にする人間の頭部の放射輝度場表現を得ます。一連の実験を通じて、私たちの手法の設計選択を探り、私たちのアプローチが最先端の動的放射輝度場アプローチを大幅に上回ることを実証します。
English
We focus on reconstructing high-fidelity radiance fields of human heads,
capturing their animations over time, and synthesizing re-renderings from novel
viewpoints at arbitrary time steps. To this end, we propose a new multi-view
capture setup composed of 16 calibrated machine vision cameras that record
time-synchronized images at 7.1 MP resolution and 73 frames per second. With
our setup, we collect a new dataset of over 4700 high-resolution,
high-framerate sequences of more than 220 human heads, from which we introduce
a new human head reconstruction benchmark. The recorded sequences cover a wide
range of facial dynamics, including head motions, natural expressions,
emotions, and spoken language. In order to reconstruct high-fidelity human
heads, we propose Dynamic Neural Radiance Fields using Hash Ensembles
(NeRSemble). We represent scene dynamics by combining a deformation field and
an ensemble of 3D multi-resolution hash encodings. The deformation field allows
for precise modeling of simple scene movements, while the ensemble of hash
encodings helps to represent complex dynamics. As a result, we obtain radiance
field representations of human heads that capture motion over time and
facilitate re-rendering of arbitrary novel viewpoints. In a series of
experiments, we explore the design choices of our method and demonstrate that
our approach outperforms state-of-the-art dynamic radiance field approaches by
a significant margin.