AvatarReX: Avatares Corporais Completos e Expressivos em Tempo Real

Resumo

Apresentamos o AvatarReX, um novo método para aprender avatares de corpo inteiro baseados em NeRF a partir de dados de vídeo. O avatar aprendido não apenas oferece controle expressivo do corpo, mãos e rosto em conjunto, mas também suporta animação e renderização em tempo real. Para isso, propomos uma representação composicional de avatar, onde o corpo, as mãos e o rosto são modelados separadamente de forma que o prior estrutural de modelos de malha paramétricos seja adequadamente utilizado sem comprometer a flexibilidade da representação. Além disso, desacoplamos a geometria e a aparência de cada parte. Com esses projetos técnicos, propomos um pipeline de renderização diferida dedicado, que pode ser executado em taxas de quadros em tempo real para sintetizar imagens de alta qualidade em visão livre. O desacoplamento de geometria e aparência também nos permite projetar uma estratégia de treinamento em duas etapas que combina renderização volumétrica e renderização de superfície para o treinamento da rede. Dessa forma, a supervisão em nível de patch pode ser aplicada para forçar a rede a aprender detalhes nítidos de aparência com base na estimativa de geometria. No geral, nosso método permite a construção automática de avatares expressivos de corpo inteiro com capacidade de renderização em tempo real, e pode gerar imagens foto-realistas com detalhes dinâmicos para novos movimentos corporais e expressões faciais.

English

We present AvatarReX, a new method for learning NeRF-based full-body avatars from video data. The learnt avatar not only provides expressive control of the body, hands and the face together, but also supports real-time animation and rendering. To this end, we propose a compositional avatar representation, where the body, hands and the face are separately modeled in a way that the structural prior from parametric mesh templates is properly utilized without compromising representation flexibility. Furthermore, we disentangle the geometry and appearance for each part. With these technical designs, we propose a dedicated deferred rendering pipeline, which can be executed in real-time framerate to synthesize high-quality free-view images. The disentanglement of geometry and appearance also allows us to design a two-pass training strategy that combines volume rendering and surface rendering for network training. In this way, patch-level supervision can be applied to force the network to learn sharp appearance details on the basis of geometry estimation. Overall, our method enables automatic construction of expressive full-body avatars with real-time rendering capability, and can generate photo-realistic images with dynamic details for novel body motions and facial expressions.

AvatarReX: Avatares Corporais Completos e Expressivos em Tempo Real

AvatarReX: Real-time Expressive Full-body Avatars

Resumo

Support