HumanRF: Высококачественные нейронные поля излучения для движущихся людей
HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion
May 10, 2023
Авторы: Mustafa Işık, Martin Rünz, Markos Georgopoulos, Taras Khakhulin, Jonathan Starck, Lourdes Agapito, Matthias Nießner
cs.AI
Аннотация
Высококачественное представление человеческой деятельности является важным элементом в различных приложениях, таких как кинопроизводство, компьютерные игры или видеоконференции. Чтобы сократить разрыв до уровня производственного качества, мы представляем HumanRF — 4D динамическое нейронное представление сцены, которое захватывает полный внешний вид тела в движении на основе многовидеового ввода и позволяет воспроизводить его с новых, ранее невидимых ракурсов. Наше новое представление действует как динамическое кодирование видео, которое захватывает мелкие детали при высоких коэффициентах сжатия за счет факторизации пространства-времени в виде временной матрично-векторной декомпозиции. Это позволяет нам получать временно согласованные реконструкции человеческих актеров для длинных последовательностей, сохраняя при этом высокое разрешение деталей даже в условиях сложного движения. В то время как большинство исследований сосредоточено на синтезе с разрешением 4 МП или ниже, мы решаем задачу работы с разрешением 12 МП. Для этого мы представляем ActorsHQ — новый многовидеовой набор данных, который предоставляет 12 МП видеоматериалы с 160 камер для 16 последовательностей с высококачественными пофреймовыми реконструкциями сетки. Мы демонстрируем проблемы, возникающие при использовании таких данных высокого разрешения, и показываем, что наш новый HumanRF эффективно использует эти данные, делая значительный шаг к производственному качеству синтеза новых ракурсов.
English
Representing human performance at high-fidelity is an essential building
block in diverse applications, such as film production, computer games or
videoconferencing. To close the gap to production-level quality, we introduce
HumanRF, a 4D dynamic neural scene representation that captures full-body
appearance in motion from multi-view video input, and enables playback from
novel, unseen viewpoints. Our novel representation acts as a dynamic video
encoding that captures fine details at high compression rates by factorizing
space-time into a temporal matrix-vector decomposition. This allows us to
obtain temporally coherent reconstructions of human actors for long sequences,
while representing high-resolution details even in the context of challenging
motion. While most research focuses on synthesizing at resolutions of 4MP or
lower, we address the challenge of operating at 12MP. To this end, we introduce
ActorsHQ, a novel multi-view dataset that provides 12MP footage from 160
cameras for 16 sequences with high-fidelity, per-frame mesh reconstructions. We
demonstrate challenges that emerge from using such high-resolution data and
show that our newly introduced HumanRF effectively leverages this data, making
a significant step towards production-level quality novel view synthesis.