NeRSemble: Multi-view Radianceveld-reconstructie van Menselijke Hoofden

Samenvatting

We richten ons op het reconstrueren van hoogwaardige radiance fields van menselijke hoofden, het vastleggen van hun animaties over tijd, en het synthetiseren van herweergaven vanuit nieuwe gezichtspunten op willekeurige tijdstappen. Hiertoe stellen we een nieuwe multi-view opstelling voor, bestaande uit 16 gekalibreerde machine vision camera's die tijdgesynchroniseerde beelden opnemen met een resolutie van 7,1 MP en 73 frames per seconde. Met onze opstelling verzamelen we een nieuwe dataset van meer dan 4700 hoogwaardige, hoogfrequente sequenties van meer dan 220 menselijke hoofden, waaruit we een nieuwe benchmark voor de reconstructie van menselijke hoofden introduceren. De opgenomen sequenties bestrijken een breed scala aan gezichtsbewegingen, waaronder hoofdbewegingen, natuurlijke expressies, emoties en gesproken taal. Om hoogwaardige menselijke hoofden te reconstrueren, stellen we Dynamic Neural Radiance Fields voor met behulp van Hash Ensembles (NeRSemble). We representeren scènedynamiek door een vervormingsveld te combineren met een ensemble van 3D multi-resolutie hash-coderingen. Het vervormingsveld maakt een nauwkeurige modellering van eenvoudige scènebewegingen mogelijk, terwijl het ensemble van hash-coderingen helpt om complexe dynamiek te representeren. Als resultaat verkrijgen we radiance field-representaties van menselijke hoofden die beweging over tijd vastleggen en het herweergeven van willekeurige nieuwe gezichtspunten mogelijk maken. In een reeks experimenten onderzoeken we de ontwerpkeuzes van onze methode en tonen we aan dat onze aanpak state-of-the-art dynamische radiance field-benaderingen aanzienlijk overtreft.

English

We focus on reconstructing high-fidelity radiance fields of human heads, capturing their animations over time, and synthesizing re-renderings from novel viewpoints at arbitrary time steps. To this end, we propose a new multi-view capture setup composed of 16 calibrated machine vision cameras that record time-synchronized images at 7.1 MP resolution and 73 frames per second. With our setup, we collect a new dataset of over 4700 high-resolution, high-framerate sequences of more than 220 human heads, from which we introduce a new human head reconstruction benchmark. The recorded sequences cover a wide range of facial dynamics, including head motions, natural expressions, emotions, and spoken language. In order to reconstruct high-fidelity human heads, we propose Dynamic Neural Radiance Fields using Hash Ensembles (NeRSemble). We represent scene dynamics by combining a deformation field and an ensemble of 3D multi-resolution hash encodings. The deformation field allows for precise modeling of simple scene movements, while the ensemble of hash encodings helps to represent complex dynamics. As a result, we obtain radiance field representations of human heads that capture motion over time and facilitate re-rendering of arbitrary novel viewpoints. In a series of experiments, we explore the design choices of our method and demonstrate that our approach outperforms state-of-the-art dynamic radiance field approaches by a significant margin.

NeRSemble: Multi-view Radianceveld-reconstructie van Menselijke Hoofden

NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads

Samenvatting

Support