ChatPaper.aiChatPaper

TalkinNeRF: Campos Neuronales Animables para Humanos que Hablan de Cuerpo Completo

TalkinNeRF: Animatable Neural Fields for Full-Body Talking Humans

September 25, 2024
Autores: Aggelina Chatziagapi, Bindita Chaudhuri, Amit Kumar, Rakesh Ranjan, Dimitris Samaras, Nikolaos Sarafianos
cs.AI

Resumen

Presentamos un marco novedoso que aprende un campo de radiance neural dinámico (NeRF) para humanos parlantes de cuerpo completo a partir de videos monoculares. Trabajos previos representan solo la postura corporal o la cara. Sin embargo, los humanos se comunican con todo su cuerpo, combinando la postura corporal, gestos de manos, así como expresiones faciales. En este trabajo, proponemos TalkinNeRF, una red unificada basada en NeRF que representa el movimiento humano holístico en 4D. Dado un video monocular de un sujeto, aprendemos módulos correspondientes para el cuerpo, la cara y las manos, que se combinan para generar el resultado final. Para capturar la articulación compleja de los dedos, aprendemos un campo de deformación adicional para las manos. Nuestra representación multi-identidad permite el entrenamiento simultáneo para varios sujetos, así como una animación robusta bajo posturas completamente nuevas. También puede generalizarse a identidades nuevas, dado solo un video corto como entrada. Demostramos un rendimiento de vanguardia para animar humanos parlantes de cuerpo completo, con una articulación detallada de las manos y expresiones faciales.
English
We introduce a novel framework that learns a dynamic neural radiance field (NeRF) for full-body talking humans from monocular videos. Prior work represents only the body pose or the face. However, humans communicate with their full body, combining body pose, hand gestures, as well as facial expressions. In this work, we propose TalkinNeRF, a unified NeRF-based network that represents the holistic 4D human motion. Given a monocular video of a subject, we learn corresponding modules for the body, face, and hands, that are combined together to generate the final result. To capture complex finger articulation, we learn an additional deformation field for the hands. Our multi-identity representation enables simultaneous training for multiple subjects, as well as robust animation under completely unseen poses. It can also generalize to novel identities, given only a short video as input. We demonstrate state-of-the-art performance for animating full-body talking humans, with fine-grained hand articulation and facial expressions.

Summary

AI-Generated Summary

PDF72November 16, 2024