Avatar Neural Relightável e Animável a partir de Vídeo de Visão Esparsa

Resumo

Este artigo aborda o desafio de criar avatares neurais reluzíveis e animáveis a partir de vídeos de visão esparsa (ou mesmo monoculares) de humanos dinâmicos sob iluminação desconhecida. Em comparação com ambientes de estúdio, essa configuração é mais prática e acessível, mas apresenta um problema mal-posto extremamente desafiador. Métodos anteriores de reconstrução neural de humanos conseguem reconstruir avatares animáveis a partir de visões esparsas usando Campos de Distância com Sinal (SDF) deformados, mas não conseguem recuperar parâmetros de material para reluzimento. Embora métodos baseados em renderização inversa diferenciável tenham obtido sucesso na recuperação de materiais de objetos estáticos, não é trivial estendê-los para humanos dinâmicos, pois é computacionalmente intensivo calcular a interseção pixel-superfície e a visibilidade da luz em SDFs deformados para renderização inversa. Para resolver esse desafio, propomos um algoritmo de Consulta Hierárquica de Distância (HDQ) para aproximar as distâncias no espaço mundial sob poses humanas arbitrárias. Especificamente, estimamos distâncias grosseiras com base em um modelo humano paramétrico e calculamos distâncias finas explorando a invariância de deformação local do SDF. Com base no algoritmo HDQ, utilizamos o rastreamento de esferas para estimar eficientemente a interseção da superfície e a visibilidade da luz. Isso nos permite desenvolver o primeiro sistema capaz de recuperar avatares neurais animáveis e reluzíveis a partir de entradas de visão esparsa (ou monoculares). Experimentos demonstram que nossa abordagem é capaz de produzir resultados superiores em comparação com os métodos mais avançados atualmente. Nosso código será liberado para reprodutibilidade.

English

This paper tackles the challenge of creating relightable and animatable neural avatars from sparse-view (or even monocular) videos of dynamic humans under unknown illumination. Compared to studio environments, this setting is more practical and accessible but poses an extremely challenging ill-posed problem. Previous neural human reconstruction methods are able to reconstruct animatable avatars from sparse views using deformed Signed Distance Fields (SDF) but cannot recover material parameters for relighting. While differentiable inverse rendering-based methods have succeeded in material recovery of static objects, it is not straightforward to extend them to dynamic humans as it is computationally intensive to compute pixel-surface intersection and light visibility on deformed SDFs for inverse rendering. To solve this challenge, we propose a Hierarchical Distance Query (HDQ) algorithm to approximate the world space distances under arbitrary human poses. Specifically, we estimate coarse distances based on a parametric human model and compute fine distances by exploiting the local deformation invariance of SDF. Based on the HDQ algorithm, we leverage sphere tracing to efficiently estimate the surface intersection and light visibility. This allows us to develop the first system to recover animatable and relightable neural avatars from sparse view (or monocular) inputs. Experiments demonstrate that our approach is able to produce superior results compared to state-of-the-art methods. Our code will be released for reproducibility.

Avatar Neural Relightável e Animável a partir de Vídeo de Visão Esparsa

Relightable and Animatable Neural Avatar from Sparse-View Video

Resumo

Support