TalkinNeRF: Campos Neurais Animáveis para Humanos Falantes de Corpo Inteiro
TalkinNeRF: Animatable Neural Fields for Full-Body Talking Humans
September 25, 2024
Autores: Aggelina Chatziagapi, Bindita Chaudhuri, Amit Kumar, Rakesh Ranjan, Dimitris Samaras, Nikolaos Sarafianos
cs.AI
Resumo
Apresentamos um novo framework que aprende um campo de radiância neural dinâmico (NeRF) para humanos falantes de corpo inteiro a partir de vídeos monoculares. Trabalhos anteriores representam apenas a pose do corpo ou o rosto. No entanto, os humanos se comunicam com seus corpos inteiros, combinando pose corporal, gestos das mãos, bem como expressões faciais. Neste trabalho, propomos o TalkinNeRF, uma rede unificada baseada em NeRF que representa o movimento humano holístico 4D. Dado um vídeo monocula de um sujeito, aprendemos módulos correspondentes para o corpo, rosto e mãos, que são combinados para gerar o resultado final. Para capturar a articulação complexa dos dedos, aprendemos um campo de deformação adicional para as mãos. Nossa representação multi-identidade permite o treinamento simultâneo para múltiplos sujeitos, bem como animação robusta sob poses completamente inéditas. Também pode generalizar para novas identidades, dadas apenas um vídeo curto como entrada. Demonstramos um desempenho de ponta para animar humanos falantes de corpo inteiro, com articulação detalhada das mãos e expressões faciais.
English
We introduce a novel framework that learns a dynamic neural radiance field
(NeRF) for full-body talking humans from monocular videos. Prior work
represents only the body pose or the face. However, humans communicate with
their full body, combining body pose, hand gestures, as well as facial
expressions. In this work, we propose TalkinNeRF, a unified NeRF-based network
that represents the holistic 4D human motion. Given a monocular video of a
subject, we learn corresponding modules for the body, face, and hands, that are
combined together to generate the final result. To capture complex finger
articulation, we learn an additional deformation field for the hands. Our
multi-identity representation enables simultaneous training for multiple
subjects, as well as robust animation under completely unseen poses. It can
also generalize to novel identities, given only a short video as input. We
demonstrate state-of-the-art performance for animating full-body talking
humans, with fine-grained hand articulation and facial expressions.Summary
AI-Generated Summary