NeRSemble: Reconstrução de Campos de Radiação de Cabeças Humanas a partir de Múltiplas Visões

Resumo

Nós nos concentramos na reconstrução de campos de radiação de alta fidelidade de cabeças humanas, capturando suas animações ao longo do tempo e sintetizando re-renderizações a partir de novos pontos de vista em passos de tempo arbitrários. Para isso, propomos uma nova configuração de captura multi-visão composta por 16 câmeras de visão máquina calibradas que registram imagens sincronizadas no tempo com resolução de 7,1 MP e 73 quadros por segundo. Com nossa configuração, coletamos um novo conjunto de dados com mais de 4700 sequências de alta resolução e alta taxa de quadros de mais de 220 cabeças humanas, a partir do qual introduzimos um novo benchmark de reconstrução de cabeças humanas. As sequências gravadas abrangem uma ampla gama de dinâmicas faciais, incluindo movimentos da cabeça, expressões naturais, emoções e linguagem falada. Para reconstruir cabeças humanas de alta fidelidade, propomos Campos de Radiação Neural Dinâmicos usando Conjuntos de Hash (NeRSemble). Representamos a dinâmica da cena combinando um campo de deformação e um conjunto de codificações de hash 3D multi-resolução. O campo de deformação permite a modelagem precisa de movimentos simples da cena, enquanto o conjunto de codificações de hash ajuda a representar dinâmicas complexas. Como resultado, obtemos representações de campos de radiação de cabeças humanas que capturam o movimento ao longo do tempo e facilitam a re-renderização de novos pontos de vista arbitrários. Em uma série de experimentos, exploramos as escolhas de design de nosso método e demonstramos que nossa abordagem supera significativamente as abordagens de campos de radiação dinâmicos state-of-the-art.

English

We focus on reconstructing high-fidelity radiance fields of human heads, capturing their animations over time, and synthesizing re-renderings from novel viewpoints at arbitrary time steps. To this end, we propose a new multi-view capture setup composed of 16 calibrated machine vision cameras that record time-synchronized images at 7.1 MP resolution and 73 frames per second. With our setup, we collect a new dataset of over 4700 high-resolution, high-framerate sequences of more than 220 human heads, from which we introduce a new human head reconstruction benchmark. The recorded sequences cover a wide range of facial dynamics, including head motions, natural expressions, emotions, and spoken language. In order to reconstruct high-fidelity human heads, we propose Dynamic Neural Radiance Fields using Hash Ensembles (NeRSemble). We represent scene dynamics by combining a deformation field and an ensemble of 3D multi-resolution hash encodings. The deformation field allows for precise modeling of simple scene movements, while the ensemble of hash encodings helps to represent complex dynamics. As a result, we obtain radiance field representations of human heads that capture motion over time and facilitate re-rendering of arbitrary novel viewpoints. In a series of experiments, we explore the design choices of our method and demonstrate that our approach outperforms state-of-the-art dynamic radiance field approaches by a significant margin.

NeRSemble: Reconstrução de Campos de Radiação de Cabeças Humanas a partir de Múltiplas Visões

NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads

Resumo

Support