HumanRF: Campos de Radiação Neural de Alta Fidelidade para Humanos em Movimento
HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion
May 10, 2023
Autores: Mustafa Işık, Martin Rünz, Markos Georgopoulos, Taras Khakhulin, Jonathan Starck, Lourdes Agapito, Matthias Nießner
cs.AI
Resumo
Representar o desempenho humano com alta fidelidade é um componente essencial em diversas aplicações, como produção de filmes, jogos de computador ou videoconferências. Para reduzir a lacuna em relação à qualidade de nível de produção, apresentamos o HumanRF, uma representação neural dinâmica 4D de cenas que captura a aparência do corpo inteiro em movimento a partir de vídeos de múltiplas perspectivas e permite a reprodução a partir de novos ângulos não vistos anteriormente. Nossa nova representação atua como uma codificação de vídeo dinâmica que captura detalhes refinados com altas taxas de compressão, fatorizando o espaço-tempo em uma decomposição matricial-vetorial temporal. Isso nos permite obter reconstruções temporalmente coerentes de atores humanos para sequências longas, enquanto representamos detalhes de alta resolução mesmo em cenários de movimento desafiadores. Enquanto a maioria das pesquisas se concentra na síntese em resoluções de 4MP ou menores, abordamos o desafio de operar em 12MP. Para isso, introduzimos o ActorsHQ, um novo conjunto de dados multivista que fornece filmagens em 12MP de 160 câmeras para 16 sequências com reconstruções de malha de alta fidelidade por quadro. Demonstramos os desafios que surgem ao usar dados de tão alta resolução e mostramos que nosso recém-introduzido HumanRF aproveita efetivamente esses dados, dando um passo significativo em direção à síntese de novas perspectivas de qualidade de nível de produção.
English
Representing human performance at high-fidelity is an essential building
block in diverse applications, such as film production, computer games or
videoconferencing. To close the gap to production-level quality, we introduce
HumanRF, a 4D dynamic neural scene representation that captures full-body
appearance in motion from multi-view video input, and enables playback from
novel, unseen viewpoints. Our novel representation acts as a dynamic video
encoding that captures fine details at high compression rates by factorizing
space-time into a temporal matrix-vector decomposition. This allows us to
obtain temporally coherent reconstructions of human actors for long sequences,
while representing high-resolution details even in the context of challenging
motion. While most research focuses on synthesizing at resolutions of 4MP or
lower, we address the challenge of operating at 12MP. To this end, we introduce
ActorsHQ, a novel multi-view dataset that provides 12MP footage from 160
cameras for 16 sequences with high-fidelity, per-frame mesh reconstructions. We
demonstrate challenges that emerge from using such high-resolution data and
show that our newly introduced HumanRF effectively leverages this data, making
a significant step towards production-level quality novel view synthesis.