ChatPaper.aiChatPaper

HumanRF: Campos de Radiación Neural de Alta Fidelidad para Humanos en Movimiento

HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion

May 10, 2023
Autores: Mustafa Işık, Martin Rünz, Markos Georgopoulos, Taras Khakhulin, Jonathan Starck, Lourdes Agapito, Matthias Nießner
cs.AI

Resumen

Representar el rendimiento humano con alta fidelidad es un componente esencial en diversas aplicaciones, como la producción cinematográfica, los videojuegos o las videoconferencias. Para cerrar la brecha hacia la calidad de nivel de producción, presentamos HumanRF, una representación neural dinámica 4D de escenas que captura la apariencia de cuerpo completo en movimiento a partir de entradas de video multicámara, y permite la reproducción desde puntos de vista nuevos y no vistos. Nuestra novedosa representación actúa como una codificación de video dinámica que captura detalles finos con altas tasas de compresión al factorizar el espacio-tiempo en una descomposición matricial-vectorial temporal. Esto nos permite obtener reconstrucciones temporalmente coherentes de actores humanos en secuencias largas, mientras representamos detalles de alta resolución incluso en el contexto de movimientos desafiantes. Mientras que la mayoría de las investigaciones se centran en sintetizar a resoluciones de 4MP o menos, abordamos el desafío de operar a 12MP. Para ello, presentamos ActorsHQ, un nuevo conjunto de datos multicámara que proporciona imágenes de 12MP capturadas por 160 cámaras para 16 secuencias con reconstrucciones de mallas de alta fidelidad por fotograma. Demostramos los desafíos que surgen al utilizar datos de tan alta resolución y mostramos que nuestro recién introducido HumanRF aprovecha eficazmente estos datos, dando un paso significativo hacia la síntesis de nuevas vistas de calidad de nivel de producción.
English
Representing human performance at high-fidelity is an essential building block in diverse applications, such as film production, computer games or videoconferencing. To close the gap to production-level quality, we introduce HumanRF, a 4D dynamic neural scene representation that captures full-body appearance in motion from multi-view video input, and enables playback from novel, unseen viewpoints. Our novel representation acts as a dynamic video encoding that captures fine details at high compression rates by factorizing space-time into a temporal matrix-vector decomposition. This allows us to obtain temporally coherent reconstructions of human actors for long sequences, while representing high-resolution details even in the context of challenging motion. While most research focuses on synthesizing at resolutions of 4MP or lower, we address the challenge of operating at 12MP. To this end, we introduce ActorsHQ, a novel multi-view dataset that provides 12MP footage from 160 cameras for 16 sequences with high-fidelity, per-frame mesh reconstructions. We demonstrate challenges that emerge from using such high-resolution data and show that our newly introduced HumanRF effectively leverages this data, making a significant step towards production-level quality novel view synthesis.
PDF11December 15, 2024