HumanRF : Champs de rayonnement neuronaux haute fidélité pour les humains en mouvement
HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion
May 10, 2023
Auteurs: Mustafa Işık, Martin Rünz, Markos Georgopoulos, Taras Khakhulin, Jonathan Starck, Lourdes Agapito, Matthias Nießner
cs.AI
Résumé
La représentation fidèle des performances humaines constitue un élément essentiel pour diverses applications, telles que la production cinématographique, les jeux vidéo ou la visioconférence. Pour combler l'écart avec la qualité de niveau production, nous présentons HumanRF, une représentation neuronale dynamique 4D de scènes qui capture l'apparence complète du corps en mouvement à partir d'une entrée vidéo multi-vues, et permet une lecture sous des angles de vue nouveaux et inédits. Notre nouvelle représentation agit comme un encodage vidéo dynamique qui capture des détails fins à des taux de compression élevés en factorisant l'espace-temps via une décomposition matricielle-vectorielle temporelle. Cela nous permet d'obtenir des reconstructions temporellement cohérentes d'acteurs humains pour des séquences longues, tout en représentant des détails haute résolution même dans des contextes de mouvements complexes. Alors que la plupart des recherches se concentrent sur la synthèse à des résolutions de 4MP ou moins, nous relevons le défi d'opérer à 12MP. À cette fin, nous introduisons ActorsHQ, un nouveau jeu de données multi-vues qui fournit des séquences en 12MP provenant de 160 caméras pour 16 séquences, accompagnées de reconstructions de maillages haute fidélité par image. Nous mettons en évidence les défis qui émergent de l'utilisation de données à si haute résolution et montrons que notre HumanRF exploite efficacement ces données, marquant une avancée significative vers la synthèse de vues nouvelles de qualité production.
English
Representing human performance at high-fidelity is an essential building
block in diverse applications, such as film production, computer games or
videoconferencing. To close the gap to production-level quality, we introduce
HumanRF, a 4D dynamic neural scene representation that captures full-body
appearance in motion from multi-view video input, and enables playback from
novel, unseen viewpoints. Our novel representation acts as a dynamic video
encoding that captures fine details at high compression rates by factorizing
space-time into a temporal matrix-vector decomposition. This allows us to
obtain temporally coherent reconstructions of human actors for long sequences,
while representing high-resolution details even in the context of challenging
motion. While most research focuses on synthesizing at resolutions of 4MP or
lower, we address the challenge of operating at 12MP. To this end, we introduce
ActorsHQ, a novel multi-view dataset that provides 12MP footage from 160
cameras for 16 sequences with high-fidelity, per-frame mesh reconstructions. We
demonstrate challenges that emerge from using such high-resolution data and
show that our newly introduced HumanRF effectively leverages this data, making
a significant step towards production-level quality novel view synthesis.