NeRSemble: Реконструкция поля излучения человеческих голов на основе данных с нескольких ракурсов
NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads
May 4, 2023
Авторы: Tobias Kirschstein, Shenhan Qian, Simon Giebenhain, Tim Walter, Matthias Nießner
cs.AI
Аннотация
Мы сосредоточены на реконструкции высококачественных полей излучения человеческих голов, захвате их анимации во времени и синтезе повторных рендеров с новых точек зрения на произвольных временных шагах. Для этого мы предлагаем новую установку для многокамерного захвата, состоящую из 16 калиброванных камер машинного зрения, которые записывают синхронизированные по времени изображения с разрешением 7.1 МП и частотой 73 кадра в секунду. С помощью нашей установки мы собираем новый набор данных, содержащий более 4700 высококачественных последовательностей с высокой частотой кадров, охватывающих более 220 человеческих голов, на основе которого мы вводим новый бенчмарк для реконструкции человеческих голов. Записанные последовательности охватывают широкий спектр лицевых динамик, включая движения головы, естественные выражения, эмоции и речь. Для реконструкции высококачественных человеческих голов мы предлагаем метод Dynamic Neural Radiance Fields using Hash Ensembles (NeRSemble). Мы представляем динамику сцены, комбинируя поле деформации и ансамбль 3D многомасштабных хэш-кодировок. Поле деформации позволяет точно моделировать простые движения сцены, в то время как ансамбль хэш-кодировок помогает представлять сложную динамику. В результате мы получаем представления полей излучения человеческих голов, которые захватывают движение во времени и позволяют повторно рендерить произвольные новые точки зрения. В серии экспериментов мы исследуем дизайнерские решения нашего метода и демонстрируем, что наш подход значительно превосходит современные методы динамических полей излучения.
English
We focus on reconstructing high-fidelity radiance fields of human heads,
capturing their animations over time, and synthesizing re-renderings from novel
viewpoints at arbitrary time steps. To this end, we propose a new multi-view
capture setup composed of 16 calibrated machine vision cameras that record
time-synchronized images at 7.1 MP resolution and 73 frames per second. With
our setup, we collect a new dataset of over 4700 high-resolution,
high-framerate sequences of more than 220 human heads, from which we introduce
a new human head reconstruction benchmark. The recorded sequences cover a wide
range of facial dynamics, including head motions, natural expressions,
emotions, and spoken language. In order to reconstruct high-fidelity human
heads, we propose Dynamic Neural Radiance Fields using Hash Ensembles
(NeRSemble). We represent scene dynamics by combining a deformation field and
an ensemble of 3D multi-resolution hash encodings. The deformation field allows
for precise modeling of simple scene movements, while the ensemble of hash
encodings helps to represent complex dynamics. As a result, we obtain radiance
field representations of human heads that capture motion over time and
facilitate re-rendering of arbitrary novel viewpoints. In a series of
experiments, we explore the design choices of our method and demonstrate that
our approach outperforms state-of-the-art dynamic radiance field approaches by
a significant margin.