Avatar Neurale Rilluminabile e Animabile da Video a Vista Sparsa

Abstract

Questo articolo affronta la sfida di creare avatar neurali rilucebili e animabili a partire da video a vista sparsa (o addirittura monoculare) di esseri umani dinamici sotto illuminazione sconosciuta. Rispetto agli ambienti da studio, questa configurazione è più pratica e accessibile, ma presenta un problema mal posto estremamente complesso. I precedenti metodi di ricostruzione neurale di esseri umani sono in grado di ricostruire avatar animabili da viste sparse utilizzando Campi di Distanza con Segno (SDF) deformati, ma non possono recuperare i parametri dei materiali per il rilucimento. Mentre i metodi basati sul rendering inverso differenziabile hanno avuto successo nel recupero dei materiali di oggetti statici, non è semplice estenderli agli esseri umani dinamici, poiché è computazionalmente intensivo calcolare l'intersezione pixel-superficie e la visibilità della luce su SDF deformati per il rendering inverso. Per risolvere questa sfida, proponiamo un algoritmo di Query Gerarchica delle Distanze (HDQ) per approssimare le distanze nello spazio mondiale sotto pose umane arbitrarie. Nello specifico, stimiamo distanze approssimative basandoci su un modello umano parametrico e calcoliamo distanze precise sfruttando l'invarianza locale della deformazione degli SDF. Basandoci sull'algoritmo HDQ, sfruttiamo lo sphere tracing per stimare efficientemente l'intersezione della superficie e la visibilità della luce. Questo ci permette di sviluppare il primo sistema in grado di recuperare avatar neurali animabili e rilucebili da input a vista sparsa (o monoculare). Gli esperimenti dimostrano che il nostro approccio è in grado di produrre risultati superiori rispetto ai metodi all'avanguardia. Il nostro codice verrà rilasciato per garantire la riproducibilità.

English

This paper tackles the challenge of creating relightable and animatable neural avatars from sparse-view (or even monocular) videos of dynamic humans under unknown illumination. Compared to studio environments, this setting is more practical and accessible but poses an extremely challenging ill-posed problem. Previous neural human reconstruction methods are able to reconstruct animatable avatars from sparse views using deformed Signed Distance Fields (SDF) but cannot recover material parameters for relighting. While differentiable inverse rendering-based methods have succeeded in material recovery of static objects, it is not straightforward to extend them to dynamic humans as it is computationally intensive to compute pixel-surface intersection and light visibility on deformed SDFs for inverse rendering. To solve this challenge, we propose a Hierarchical Distance Query (HDQ) algorithm to approximate the world space distances under arbitrary human poses. Specifically, we estimate coarse distances based on a parametric human model and compute fine distances by exploiting the local deformation invariance of SDF. Based on the HDQ algorithm, we leverage sphere tracing to efficiently estimate the surface intersection and light visibility. This allows us to develop the first system to recover animatable and relightable neural avatars from sparse view (or monocular) inputs. Experiments demonstrate that our approach is able to produce superior results compared to state-of-the-art methods. Our code will be released for reproducibility.

Avatar Neurale Rilluminabile e Animabile da Video a Vista Sparsa

Relightable and Animatable Neural Avatar from Sparse-View Video

Abstract

Support