NeRSemble: Multi-view Radianceveld-reconstructie van Menselijke Hoofden
NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads
May 4, 2023
Auteurs: Tobias Kirschstein, Shenhan Qian, Simon Giebenhain, Tim Walter, Matthias Nießner
cs.AI
Samenvatting
We richten ons op het reconstrueren van hoogwaardige radiance fields van menselijke hoofden, het vastleggen van hun animaties over tijd, en het synthetiseren van herweergaven vanuit nieuwe gezichtspunten op willekeurige tijdstappen. Hiertoe stellen we een nieuwe multi-view opstelling voor, bestaande uit 16 gekalibreerde machine vision camera's die tijdgesynchroniseerde beelden opnemen met een resolutie van 7,1 MP en 73 frames per seconde. Met onze opstelling verzamelen we een nieuwe dataset van meer dan 4700 hoogwaardige, hoogfrequente sequenties van meer dan 220 menselijke hoofden, waaruit we een nieuwe benchmark voor de reconstructie van menselijke hoofden introduceren. De opgenomen sequenties bestrijken een breed scala aan gezichtsbewegingen, waaronder hoofdbewegingen, natuurlijke expressies, emoties en gesproken taal. Om hoogwaardige menselijke hoofden te reconstrueren, stellen we Dynamic Neural Radiance Fields voor met behulp van Hash Ensembles (NeRSemble). We representeren scènedynamiek door een vervormingsveld te combineren met een ensemble van 3D multi-resolutie hash-coderingen. Het vervormingsveld maakt een nauwkeurige modellering van eenvoudige scènebewegingen mogelijk, terwijl het ensemble van hash-coderingen helpt om complexe dynamiek te representeren. Als resultaat verkrijgen we radiance field-representaties van menselijke hoofden die beweging over tijd vastleggen en het herweergeven van willekeurige nieuwe gezichtspunten mogelijk maken. In een reeks experimenten onderzoeken we de ontwerpkeuzes van onze methode en tonen we aan dat onze aanpak state-of-the-art dynamische radiance field-benaderingen aanzienlijk overtreft.
English
We focus on reconstructing high-fidelity radiance fields of human heads,
capturing their animations over time, and synthesizing re-renderings from novel
viewpoints at arbitrary time steps. To this end, we propose a new multi-view
capture setup composed of 16 calibrated machine vision cameras that record
time-synchronized images at 7.1 MP resolution and 73 frames per second. With
our setup, we collect a new dataset of over 4700 high-resolution,
high-framerate sequences of more than 220 human heads, from which we introduce
a new human head reconstruction benchmark. The recorded sequences cover a wide
range of facial dynamics, including head motions, natural expressions,
emotions, and spoken language. In order to reconstruct high-fidelity human
heads, we propose Dynamic Neural Radiance Fields using Hash Ensembles
(NeRSemble). We represent scene dynamics by combining a deformation field and
an ensemble of 3D multi-resolution hash encodings. The deformation field allows
for precise modeling of simple scene movements, while the ensemble of hash
encodings helps to represent complex dynamics. As a result, we obtain radiance
field representations of human heads that capture motion over time and
facilitate re-rendering of arbitrary novel viewpoints. In a series of
experiments, we explore the design choices of our method and demonstrate that
our approach outperforms state-of-the-art dynamic radiance field approaches by
a significant margin.