NeRSemble: Multi-View-Radiance-Feld-Rekonstruktion von menschlichen Köpfen
NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads
May 4, 2023
Autoren: Tobias Kirschstein, Shenhan Qian, Simon Giebenhain, Tim Walter, Matthias Nießner
cs.AI
Zusammenfassung
Wir konzentrieren uns auf die Rekonstruktion hochauflösender Radiance Fields von menschlichen Köpfen, die Erfassung ihrer Animationen über die Zeit und die Synthese von Neuberechnungen aus neuen Blickwinkeln zu beliebigen Zeitpunkten. Zu diesem Zweck schlagen wir eine neue Multi-View-Aufnahmeanordnung vor, die aus 16 kalibrierten Maschinenvisionskameras besteht, die zeitlich synchronisierte Bilder mit einer Auflösung von 7,1 MP und einer Bildrate von 73 Bildern pro Sekunde aufzeichnen. Mit unserer Anordnung sammeln wir einen neuen Datensatz von über 4700 hochauflösenden, hochfrequenten Sequenzen von mehr als 220 menschlichen Köpfen, aus dem wir einen neuen Benchmark für die Rekonstruktion menschlicher Köpfe einführen. Die aufgezeichneten Sequenzen decken eine breite Palette von Gesichtsbewegungen ab, einschließlich Kopfbewegungen, natürlicher Ausdrücke, Emotionen und gesprochener Sprache. Um hochauflösende menschliche Köpfe zu rekonstruieren, schlagen wir Dynamische Neuronale Radiance Fields mit Hash Ensembles (NeRSemble) vor. Wir repräsentieren die Szenendynamik durch die Kombination eines Deformationsfelds und eines Ensembles von 3D-Mehrfachauflösungs-Hash-Kodierungen. Das Deformationsfeld ermöglicht die präzise Modellierung einfacher Szenenbewegungen, während das Ensemble von Hash-Kodierungen hilft, komplexe Dynamiken darzustellen. Als Ergebnis erhalten wir Radiance Field-Darstellungen von menschlichen Köpfen, die Bewegungen über die Zeit erfassen und die Neuberechnung beliebiger neuer Blickwinkel ermöglichen. In einer Reihe von Experimenten untersuchen wir die Designentscheidungen unserer Methode und zeigen, dass unser Ansatz die aktuellsten dynamischen Radiance Field-Ansätze deutlich übertrifft.
English
We focus on reconstructing high-fidelity radiance fields of human heads,
capturing their animations over time, and synthesizing re-renderings from novel
viewpoints at arbitrary time steps. To this end, we propose a new multi-view
capture setup composed of 16 calibrated machine vision cameras that record
time-synchronized images at 7.1 MP resolution and 73 frames per second. With
our setup, we collect a new dataset of over 4700 high-resolution,
high-framerate sequences of more than 220 human heads, from which we introduce
a new human head reconstruction benchmark. The recorded sequences cover a wide
range of facial dynamics, including head motions, natural expressions,
emotions, and spoken language. In order to reconstruct high-fidelity human
heads, we propose Dynamic Neural Radiance Fields using Hash Ensembles
(NeRSemble). We represent scene dynamics by combining a deformation field and
an ensemble of 3D multi-resolution hash encodings. The deformation field allows
for precise modeling of simple scene movements, while the ensemble of hash
encodings helps to represent complex dynamics. As a result, we obtain radiance
field representations of human heads that capture motion over time and
facilitate re-rendering of arbitrary novel viewpoints. In a series of
experiments, we explore the design choices of our method and demonstrate that
our approach outperforms state-of-the-art dynamic radiance field approaches by
a significant margin.