ChatPaper.aiChatPaper

NeRSemble: Reconstrucción de Campos de Radiancia Multi-vista de Cabezas Humanas

NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads

May 4, 2023
Autores: Tobias Kirschstein, Shenhan Qian, Simon Giebenhain, Tim Walter, Matthias Nießner
cs.AI

Resumen

Nos enfocamos en reconstruir campos de radiancia de alta fidelidad de cabezas humanas, capturar sus animaciones a lo largo del tiempo y sintetizar re-renderizaciones desde puntos de vista novedosos en pasos de tiempo arbitrarios. Para ello, proponemos una nueva configuración de captura multi-vista compuesta por 16 cámaras de visión artificial calibradas que graban imágenes sincronizadas en el tiempo con una resolución de 7.1 MP y 73 cuadros por segundo. Con nuestra configuración, recopilamos un nuevo conjunto de datos de más de 4700 secuencias de alta resolución y alta frecuencia de cuadros de más de 220 cabezas humanas, a partir del cual introducimos un nuevo punto de referencia para la reconstrucción de cabezas humanas. Las secuencias grabadas cubren una amplia gama de dinámicas faciales, incluyendo movimientos de cabeza, expresiones naturales, emociones y lenguaje hablado. Para reconstruir cabezas humanas de alta fidelidad, proponemos Campos de Radiancia Neural Dinámicos utilizando Conjuntos de Hash (NeRSemble). Representamos las dinámicas de la escena combinando un campo de deformación y un conjunto de codificaciones de hash 3D multi-resolución. El campo de deformación permite modelar con precisión movimientos simples de la escena, mientras que el conjunto de codificaciones de hash ayuda a representar dinámicas complejas. Como resultado, obtenemos representaciones de campos de radiancia de cabezas humanas que capturan el movimiento a lo largo del tiempo y facilitan la re-renderización de puntos de vista novedosos arbitrarios. En una serie de experimentos, exploramos las decisiones de diseño de nuestro método y demostramos que nuestro enfoque supera significativamente a los métodos de campos de radiancia dinámicos más avanzados.
English
We focus on reconstructing high-fidelity radiance fields of human heads, capturing their animations over time, and synthesizing re-renderings from novel viewpoints at arbitrary time steps. To this end, we propose a new multi-view capture setup composed of 16 calibrated machine vision cameras that record time-synchronized images at 7.1 MP resolution and 73 frames per second. With our setup, we collect a new dataset of over 4700 high-resolution, high-framerate sequences of more than 220 human heads, from which we introduce a new human head reconstruction benchmark. The recorded sequences cover a wide range of facial dynamics, including head motions, natural expressions, emotions, and spoken language. In order to reconstruct high-fidelity human heads, we propose Dynamic Neural Radiance Fields using Hash Ensembles (NeRSemble). We represent scene dynamics by combining a deformation field and an ensemble of 3D multi-resolution hash encodings. The deformation field allows for precise modeling of simple scene movements, while the ensemble of hash encodings helps to represent complex dynamics. As a result, we obtain radiance field representations of human heads that capture motion over time and facilitate re-rendering of arbitrary novel viewpoints. In a series of experiments, we explore the design choices of our method and demonstrate that our approach outperforms state-of-the-art dynamic radiance field approaches by a significant margin.
PDF10December 15, 2024