NeRSemble: Reconstrução de Campos de Radiação de Cabeças Humanas a partir de Múltiplas Visões
NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads
May 4, 2023
Autores: Tobias Kirschstein, Shenhan Qian, Simon Giebenhain, Tim Walter, Matthias Nießner
cs.AI
Resumo
Nós nos concentramos na reconstrução de campos de radiação de alta fidelidade de cabeças humanas, capturando suas animações ao longo do tempo e sintetizando re-renderizações a partir de novos pontos de vista em passos de tempo arbitrários. Para isso, propomos uma nova configuração de captura multi-visão composta por 16 câmeras de visão máquina calibradas que registram imagens sincronizadas no tempo com resolução de 7,1 MP e 73 quadros por segundo. Com nossa configuração, coletamos um novo conjunto de dados com mais de 4700 sequências de alta resolução e alta taxa de quadros de mais de 220 cabeças humanas, a partir do qual introduzimos um novo benchmark de reconstrução de cabeças humanas. As sequências gravadas abrangem uma ampla gama de dinâmicas faciais, incluindo movimentos da cabeça, expressões naturais, emoções e linguagem falada. Para reconstruir cabeças humanas de alta fidelidade, propomos Campos de Radiação Neural Dinâmicos usando Conjuntos de Hash (NeRSemble). Representamos a dinâmica da cena combinando um campo de deformação e um conjunto de codificações de hash 3D multi-resolução. O campo de deformação permite a modelagem precisa de movimentos simples da cena, enquanto o conjunto de codificações de hash ajuda a representar dinâmicas complexas. Como resultado, obtemos representações de campos de radiação de cabeças humanas que capturam o movimento ao longo do tempo e facilitam a re-renderização de novos pontos de vista arbitrários. Em uma série de experimentos, exploramos as escolhas de design de nosso método e demonstramos que nossa abordagem supera significativamente as abordagens de campos de radiação dinâmicos state-of-the-art.
English
We focus on reconstructing high-fidelity radiance fields of human heads,
capturing their animations over time, and synthesizing re-renderings from novel
viewpoints at arbitrary time steps. To this end, we propose a new multi-view
capture setup composed of 16 calibrated machine vision cameras that record
time-synchronized images at 7.1 MP resolution and 73 frames per second. With
our setup, we collect a new dataset of over 4700 high-resolution,
high-framerate sequences of more than 220 human heads, from which we introduce
a new human head reconstruction benchmark. The recorded sequences cover a wide
range of facial dynamics, including head motions, natural expressions,
emotions, and spoken language. In order to reconstruct high-fidelity human
heads, we propose Dynamic Neural Radiance Fields using Hash Ensembles
(NeRSemble). We represent scene dynamics by combining a deformation field and
an ensemble of 3D multi-resolution hash encodings. The deformation field allows
for precise modeling of simple scene movements, while the ensemble of hash
encodings helps to represent complex dynamics. As a result, we obtain radiance
field representations of human heads that capture motion over time and
facilitate re-rendering of arbitrary novel viewpoints. In a series of
experiments, we explore the design choices of our method and demonstrate that
our approach outperforms state-of-the-art dynamic radiance field approaches by
a significant margin.