NeRSemble : Reconstruction de champs de rayonnement multi-vues pour des têtes humaines
NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads
May 4, 2023
Auteurs: Tobias Kirschstein, Shenhan Qian, Simon Giebenhain, Tim Walter, Matthias Nießner
cs.AI
Résumé
Nous nous concentrons sur la reconstruction de champs de radiance haute fidélité de têtes humaines, en capturant leurs animations dans le temps et en synthétisant des rendus depuis de nouveaux points de vue à des étapes temporelles arbitraires. Pour ce faire, nous proposons un nouveau dispositif de capture multi-vues composé de 16 caméras de vision industrielle calibrées, qui enregistrent des images synchronisées dans le temps à une résolution de 7,1 MP et à 73 images par seconde. Avec ce dispositif, nous collectons un nouveau jeu de données de plus de 4700 séquences haute résolution et haute fréquence d'images, représentant plus de 220 têtes humaines, à partir desquelles nous introduisons un nouveau benchmark de reconstruction de têtes humaines. Les séquences enregistrées couvrent une large gamme de dynamiques faciales, incluant les mouvements de tête, les expressions naturelles, les émotions et le langage parlé. Afin de reconstruire des têtes humaines haute fidélité, nous proposons les Champs de Radiance Neuronaux Dynamiques utilisant des Ensembles de Hachage (NeRSemble). Nous représentons les dynamiques de scène en combinant un champ de déformation et un ensemble d'encodages 3D multi-résolution par hachage. Le champ de déformation permet une modélisation précise des mouvements simples de la scène, tandis que l'ensemble d'encodages par hachage aide à représenter les dynamiques complexes. En conséquence, nous obtenons des représentations de champs de radiance de têtes humaines qui capturent le mouvement dans le temps et facilitent le rendu de nouveaux points de vue arbitraires. Dans une série d'expériences, nous explorons les choix de conception de notre méthode et démontrons que notre approche surpasse de manière significative les méthodes de pointe en matière de champs de radiance dynamiques.
English
We focus on reconstructing high-fidelity radiance fields of human heads,
capturing their animations over time, and synthesizing re-renderings from novel
viewpoints at arbitrary time steps. To this end, we propose a new multi-view
capture setup composed of 16 calibrated machine vision cameras that record
time-synchronized images at 7.1 MP resolution and 73 frames per second. With
our setup, we collect a new dataset of over 4700 high-resolution,
high-framerate sequences of more than 220 human heads, from which we introduce
a new human head reconstruction benchmark. The recorded sequences cover a wide
range of facial dynamics, including head motions, natural expressions,
emotions, and spoken language. In order to reconstruct high-fidelity human
heads, we propose Dynamic Neural Radiance Fields using Hash Ensembles
(NeRSemble). We represent scene dynamics by combining a deformation field and
an ensemble of 3D multi-resolution hash encodings. The deformation field allows
for precise modeling of simple scene movements, while the ensemble of hash
encodings helps to represent complex dynamics. As a result, we obtain radiance
field representations of human heads that capture motion over time and
facilitate re-rendering of arbitrary novel viewpoints. In a series of
experiments, we explore the design choices of our method and demonstrate that
our approach outperforms state-of-the-art dynamic radiance field approaches by
a significant margin.