Avatar Neurale Rilluminabile e Animabile da Video a Vista Sparsa
Relightable and Animatable Neural Avatar from Sparse-View Video
August 15, 2023
Autori: Zhen Xu, Sida Peng, Chen Geng, Linzhan Mou, Zihan Yan, Jiaming Sun, Hujun Bao, Xiaowei Zhou
cs.AI
Abstract
Questo articolo affronta la sfida di creare avatar neurali rilucebili e animabili a partire da video a vista sparsa (o addirittura monoculare) di esseri umani dinamici sotto illuminazione sconosciuta. Rispetto agli ambienti da studio, questa configurazione è più pratica e accessibile, ma presenta un problema mal posto estremamente complesso. I precedenti metodi di ricostruzione neurale di esseri umani sono in grado di ricostruire avatar animabili da viste sparse utilizzando Campi di Distanza con Segno (SDF) deformati, ma non possono recuperare i parametri dei materiali per il rilucimento. Mentre i metodi basati sul rendering inverso differenziabile hanno avuto successo nel recupero dei materiali di oggetti statici, non è semplice estenderli agli esseri umani dinamici, poiché è computazionalmente intensivo calcolare l'intersezione pixel-superficie e la visibilità della luce su SDF deformati per il rendering inverso. Per risolvere questa sfida, proponiamo un algoritmo di Query Gerarchica delle Distanze (HDQ) per approssimare le distanze nello spazio mondiale sotto pose umane arbitrarie. Nello specifico, stimiamo distanze approssimative basandoci su un modello umano parametrico e calcoliamo distanze precise sfruttando l'invarianza locale della deformazione degli SDF. Basandoci sull'algoritmo HDQ, sfruttiamo lo sphere tracing per stimare efficientemente l'intersezione della superficie e la visibilità della luce. Questo ci permette di sviluppare il primo sistema in grado di recuperare avatar neurali animabili e rilucebili da input a vista sparsa (o monoculare). Gli esperimenti dimostrano che il nostro approccio è in grado di produrre risultati superiori rispetto ai metodi all'avanguardia. Il nostro codice verrà rilasciato per garantire la riproducibilità.
English
This paper tackles the challenge of creating relightable and animatable
neural avatars from sparse-view (or even monocular) videos of dynamic humans
under unknown illumination. Compared to studio environments, this setting is
more practical and accessible but poses an extremely challenging ill-posed
problem. Previous neural human reconstruction methods are able to reconstruct
animatable avatars from sparse views using deformed Signed Distance Fields
(SDF) but cannot recover material parameters for relighting. While
differentiable inverse rendering-based methods have succeeded in material
recovery of static objects, it is not straightforward to extend them to dynamic
humans as it is computationally intensive to compute pixel-surface intersection
and light visibility on deformed SDFs for inverse rendering. To solve this
challenge, we propose a Hierarchical Distance Query (HDQ) algorithm to
approximate the world space distances under arbitrary human poses.
Specifically, we estimate coarse distances based on a parametric human model
and compute fine distances by exploiting the local deformation invariance of
SDF. Based on the HDQ algorithm, we leverage sphere tracing to efficiently
estimate the surface intersection and light visibility. This allows us to
develop the first system to recover animatable and relightable neural avatars
from sparse view (or monocular) inputs. Experiments demonstrate that our
approach is able to produce superior results compared to state-of-the-art
methods. Our code will be released for reproducibility.