Avatar Neural Relumable y Animable a partir de Vídeo de Vistas Escasas
Relightable and Animatable Neural Avatar from Sparse-View Video
August 15, 2023
Autores: Zhen Xu, Sida Peng, Chen Geng, Linzhan Mou, Zihan Yan, Jiaming Sun, Hujun Bao, Xiaowei Zhou
cs.AI
Resumen
Este artículo aborda el desafío de crear avatares neurales reluminosos y animables a partir de videos de vistas escasas (o incluso monoculares) de humanos dinámicos bajo iluminación desconocida. En comparación con los entornos de estudio, este escenario es más práctico y accesible, pero plantea un problema mal definido extremadamente desafiante. Los métodos anteriores de reconstrucción neural de humanos son capaces de reconstruir avatares animables a partir de vistas escasas utilizando Campos de Distancia con Signo (SDF) deformados, pero no pueden recuperar parámetros de material para la reluminación. Si bien los métodos basados en renderizado inverso diferenciable han tenido éxito en la recuperación de materiales de objetos estáticos, no es sencillo extenderlos a humanos dinámicos, ya que es computacionalmente intensivo calcular la intersección píxel-superficie y la visibilidad de la luz en SDFs deformados para el renderizado inverso. Para resolver este desafío, proponemos un algoritmo de Consulta Jerárquica de Distancia (HDQ) para aproximar las distancias en el espacio mundial bajo poses humanas arbitrarias. Específicamente, estimamos distancias gruesas basadas en un modelo humano paramétrico y calculamos distancias finas aprovechando la invariancia de deformación local de los SDF. Basándonos en el algoritmo HDQ, utilizamos el trazado de esferas para estimar eficientemente la intersección de la superficie y la visibilidad de la luz. Esto nos permite desarrollar el primer sistema para recuperar avatares neurales animables y reluminosos a partir de entradas de vistas escasas (o monoculares). Los experimentos demuestran que nuestro enfoque es capaz de producir resultados superiores en comparación con los métodos más avanzados. Nuestro código será liberado para garantizar la reproducibilidad.
English
This paper tackles the challenge of creating relightable and animatable
neural avatars from sparse-view (or even monocular) videos of dynamic humans
under unknown illumination. Compared to studio environments, this setting is
more practical and accessible but poses an extremely challenging ill-posed
problem. Previous neural human reconstruction methods are able to reconstruct
animatable avatars from sparse views using deformed Signed Distance Fields
(SDF) but cannot recover material parameters for relighting. While
differentiable inverse rendering-based methods have succeeded in material
recovery of static objects, it is not straightforward to extend them to dynamic
humans as it is computationally intensive to compute pixel-surface intersection
and light visibility on deformed SDFs for inverse rendering. To solve this
challenge, we propose a Hierarchical Distance Query (HDQ) algorithm to
approximate the world space distances under arbitrary human poses.
Specifically, we estimate coarse distances based on a parametric human model
and compute fine distances by exploiting the local deformation invariance of
SDF. Based on the HDQ algorithm, we leverage sphere tracing to efficiently
estimate the surface intersection and light visibility. This allows us to
develop the first system to recover animatable and relightable neural avatars
from sparse view (or monocular) inputs. Experiments demonstrate that our
approach is able to produce superior results compared to state-of-the-art
methods. Our code will be released for reproducibility.