NeRSemble: Ricostruzione del Campo di Radianza da Multi-vista per Teste Umane

Abstract

Ci concentriamo sulla ricostruzione di campi di radianza ad alta fedeltà di teste umane, catturandone le animazioni nel tempo e sintetizzando nuove renderizzazioni da punti di vista inediti in passaggi temporali arbitrari. A tal fine, proponiamo una nuova configurazione di acquisizione multi-vista composta da 16 telecamere per visione artificiale calibrate che registrano immagini sincronizzate temporalmente con una risoluzione di 7,1 MP e 73 fotogrammi al secondo. Con questa configurazione, raccogliamo un nuovo dataset di oltre 4700 sequenze ad alta risoluzione e ad alto frame rate di più di 220 teste umane, da cui introduciamo un nuovo benchmark per la ricostruzione di teste umane. Le sequenze registrate coprono un'ampia gamma di dinamiche facciali, inclusi movimenti della testa, espressioni naturali, emozioni e linguaggio parlato. Per ricostruire teste umane ad alta fedeltà, proponiamo i Campi di Radianza Neurale Dinamici utilizzando Insiemi di Hash (NeRSemble). Rappresentiamo le dinamiche della scena combinando un campo di deformazione e un insieme di codifiche hash 3D a multi-risoluzione. Il campo di deformazione consente una modellazione precisa di movimenti semplici della scena, mentre l'insieme di codifiche hash aiuta a rappresentare dinamiche complesse. Di conseguenza, otteniamo rappresentazioni di campi di radianza di teste umane che catturano il movimento nel tempo e facilitano la re-renderizzazione di punti di vista nuovi arbitrari. In una serie di esperimenti, esploriamo le scelte progettuali del nostro metodo e dimostriamo che il nostro approccio supera di gran lunga i metodi all'avanguardia per i campi di radianza dinamici.

English

We focus on reconstructing high-fidelity radiance fields of human heads, capturing their animations over time, and synthesizing re-renderings from novel viewpoints at arbitrary time steps. To this end, we propose a new multi-view capture setup composed of 16 calibrated machine vision cameras that record time-synchronized images at 7.1 MP resolution and 73 frames per second. With our setup, we collect a new dataset of over 4700 high-resolution, high-framerate sequences of more than 220 human heads, from which we introduce a new human head reconstruction benchmark. The recorded sequences cover a wide range of facial dynamics, including head motions, natural expressions, emotions, and spoken language. In order to reconstruct high-fidelity human heads, we propose Dynamic Neural Radiance Fields using Hash Ensembles (NeRSemble). We represent scene dynamics by combining a deformation field and an ensemble of 3D multi-resolution hash encodings. The deformation field allows for precise modeling of simple scene movements, while the ensemble of hash encodings helps to represent complex dynamics. As a result, we obtain radiance field representations of human heads that capture motion over time and facilitate re-rendering of arbitrary novel viewpoints. In a series of experiments, we explore the design choices of our method and demonstrate that our approach outperforms state-of-the-art dynamic radiance field approaches by a significant margin.

NeRSemble: Ricostruzione del Campo di Radianza da Multi-vista per Teste Umane

NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads

Abstract

Support