HumanRF: Campi di Radianza Neurale ad Alta Fedeltà per Umani in Movimento

Abstract

Rappresentare le prestazioni umane con alta fedeltà è un elemento essenziale in diverse applicazioni, come la produzione cinematografica, i videogiochi o le videoconferenze. Per colmare il divario rispetto alla qualità di livello produttivo, introduciamo HumanRF, una rappresentazione neurale dinamica 4D di scene che cattura l'aspetto del corpo intero in movimento a partire da input video multi-vista e consente la riproduzione da punti di vista nuovi e non visti in precedenza. La nostra innovativa rappresentazione funziona come una codifica video dinamica che cattura dettagli fini con alti tassi di compressione, fattorizzando lo spazio-tempo in una decomposizione matriciale-vettoriale temporale. Ciò ci permette di ottenere ricostruzioni temporalmente coerenti di attori umani per sequenze lunghe, rappresentando dettagli ad alta risoluzione anche in contesti di movimento complesso. Mentre la maggior parte della ricerca si concentra sulla sintesi a risoluzioni di 4MP o inferiori, affrontiamo la sfida di operare a 12MP. A tal fine, introduciamo ActorsHQ, un nuovo dataset multi-vista che fornisce filmati a 12MP da 160 telecamere per 16 sequenze con ricostruzioni mesh ad alta fedeltà per ogni fotogramma. Dimostriamo le sfide che emergono dall'uso di dati ad altissima risoluzione e mostriamo che il nostro HumanRF sfrutta efficacemente questi dati, compiendo un passo significativo verso la sintesi di nuove viste di qualità produttiva.

English

Representing human performance at high-fidelity is an essential building block in diverse applications, such as film production, computer games or videoconferencing. To close the gap to production-level quality, we introduce HumanRF, a 4D dynamic neural scene representation that captures full-body appearance in motion from multi-view video input, and enables playback from novel, unseen viewpoints. Our novel representation acts as a dynamic video encoding that captures fine details at high compression rates by factorizing space-time into a temporal matrix-vector decomposition. This allows us to obtain temporally coherent reconstructions of human actors for long sequences, while representing high-resolution details even in the context of challenging motion. While most research focuses on synthesizing at resolutions of 4MP or lower, we address the challenge of operating at 12MP. To this end, we introduce ActorsHQ, a novel multi-view dataset that provides 12MP footage from 160 cameras for 16 sequences with high-fidelity, per-frame mesh reconstructions. We demonstrate challenges that emerge from using such high-resolution data and show that our newly introduced HumanRF effectively leverages this data, making a significant step towards production-level quality novel view synthesis.

HumanRF: Campi di Radianza Neurale ad Alta Fedeltà per Umani in Movimento

HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion

Abstract

Support