ChatPaper.aiChatPaper

Avatar Neural Relightable et Animable à partir de Vidéo à Vues Sparse

Relightable and Animatable Neural Avatar from Sparse-View Video

August 15, 2023
Auteurs: Zhen Xu, Sida Peng, Chen Geng, Linzhan Mou, Zihan Yan, Jiaming Sun, Hujun Bao, Xiaowei Zhou
cs.AI

Résumé

Cet article aborde le défi de créer des avatars neuronaux relightables et animables à partir de vidéos à vues éparses (voire monoculaires) d'humains dynamiques sous un éclairage inconnu. Comparé aux environnements de studio, ce contexte est plus pratique et accessible, mais pose un problème mal posé extrêmement complexe. Les méthodes précédentes de reconstruction neuronale d'humains sont capables de reconstruire des avatars animables à partir de vues éparses en utilisant des champs de distance signée déformés (SDF), mais ne peuvent pas récupérer les paramètres de matériaux pour le relighting. Bien que les méthodes basées sur le rendu inverse différentiable aient réussi à récupérer les matériaux d'objets statiques, il n'est pas simple de les étendre aux humains dynamiques, car il est intensif en calcul de déterminer l'intersection pixel-surface et la visibilité de la lumière sur des SDF déformés pour le rendu inverse. Pour résoudre ce défi, nous proposons un algorithme de requête de distance hiérarchique (HDQ) pour approximer les distances dans l'espace monde sous des poses humaines arbitraires. Plus précisément, nous estimons les distances grossières basées sur un modèle humain paramétrique et calculons les distances fines en exploitant l'invariance locale de la déformation des SDF. Sur la base de l'algorithme HDQ, nous utilisons le sphere tracing pour estimer efficacement l'intersection de surface et la visibilité de la lumière. Cela nous permet de développer le premier système capable de récupérer des avatars neuronaux animables et relightables à partir d'entrées à vues éparses (ou monoculaires). Les expériences démontrent que notre approche produit des résultats supérieurs par rapport aux méthodes de pointe. Notre code sera publié pour assurer la reproductibilité.
English
This paper tackles the challenge of creating relightable and animatable neural avatars from sparse-view (or even monocular) videos of dynamic humans under unknown illumination. Compared to studio environments, this setting is more practical and accessible but poses an extremely challenging ill-posed problem. Previous neural human reconstruction methods are able to reconstruct animatable avatars from sparse views using deformed Signed Distance Fields (SDF) but cannot recover material parameters for relighting. While differentiable inverse rendering-based methods have succeeded in material recovery of static objects, it is not straightforward to extend them to dynamic humans as it is computationally intensive to compute pixel-surface intersection and light visibility on deformed SDFs for inverse rendering. To solve this challenge, we propose a Hierarchical Distance Query (HDQ) algorithm to approximate the world space distances under arbitrary human poses. Specifically, we estimate coarse distances based on a parametric human model and compute fine distances by exploiting the local deformation invariance of SDF. Based on the HDQ algorithm, we leverage sphere tracing to efficiently estimate the surface intersection and light visibility. This allows us to develop the first system to recover animatable and relightable neural avatars from sparse view (or monocular) inputs. Experiments demonstrate that our approach is able to produce superior results compared to state-of-the-art methods. Our code will be released for reproducibility.
PDF100December 15, 2024