HumanRF: Hochauflösende neurale Strahlungsfelder für bewegte Menschen
HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion
May 10, 2023
Autoren: Mustafa Işık, Martin Rünz, Markos Georgopoulos, Taras Khakhulin, Jonathan Starck, Lourdes Agapito, Matthias Nießner
cs.AI
Zusammenfassung
Die Darstellung menschlicher Leistung in hoher Qualität ist ein wesentlicher Baustein für verschiedene Anwendungen wie Filmproduktion, Computerspiele oder Videokonferenzen. Um die Lücke zur Produktionsqualität zu schließen, stellen wir HumanRF vor, eine 4D-dynamische neuronale Szenendarstellung, die das Erscheinungsbild des gesamten Körpers in Bewegung aus Multi-View-Videoeingaben erfasst und die Wiedergabe aus neuen, ungesehenen Blickwinkeln ermöglicht. Unsere neuartige Darstellung fungiert als dynamische Video-Kodierung, die feine Details bei hohen Kompressionsraten erfasst, indem sie Raum-Zeit in eine zeitliche Matrix-Vektor-Zerlegung faktorisiert. Dies ermöglicht es uns, zeitlich kohärente Rekonstruktionen menschlicher Darsteller für lange Sequenzen zu erhalten, während selbst bei anspruchsvollen Bewegungen hochauflösende Details dargestellt werden. Während sich die meisten Forschungen auf die Synthese bei Auflösungen von 4MP oder niedriger konzentrieren, gehen wir die Herausforderung an, bei 12MP zu arbeiten. Zu diesem Zweck führen wir ActorsHQ ein, einen neuartigen Multi-View-Datensatz, der 12MP-Aufnahmen von 160 Kameras für 16 Sequenzen mit hochwertigen, pro Frame rekonstruierten Meshes bereitstellt. Wir zeigen Herausforderungen auf, die sich aus der Verwendung solcher hochauflösenden Daten ergeben, und demonstrieren, dass unser neu eingeführtes HumanRF diese Daten effektiv nutzt, wodurch ein bedeutender Schritt in Richtung Produktionsqualität bei der Synthese neuer Blickwinkel gemacht wird.
English
Representing human performance at high-fidelity is an essential building
block in diverse applications, such as film production, computer games or
videoconferencing. To close the gap to production-level quality, we introduce
HumanRF, a 4D dynamic neural scene representation that captures full-body
appearance in motion from multi-view video input, and enables playback from
novel, unseen viewpoints. Our novel representation acts as a dynamic video
encoding that captures fine details at high compression rates by factorizing
space-time into a temporal matrix-vector decomposition. This allows us to
obtain temporally coherent reconstructions of human actors for long sequences,
while representing high-resolution details even in the context of challenging
motion. While most research focuses on synthesizing at resolutions of 4MP or
lower, we address the challenge of operating at 12MP. To this end, we introduce
ActorsHQ, a novel multi-view dataset that provides 12MP footage from 160
cameras for 16 sequences with high-fidelity, per-frame mesh reconstructions. We
demonstrate challenges that emerge from using such high-resolution data and
show that our newly introduced HumanRF effectively leverages this data, making
a significant step towards production-level quality novel view synthesis.