ChatPaper.aiChatPaper

TalkinNeRF : Champs Neuronaux Animables pour des Humains Parlant en Entier

TalkinNeRF: Animatable Neural Fields for Full-Body Talking Humans

September 25, 2024
Auteurs: Aggelina Chatziagapi, Bindita Chaudhuri, Amit Kumar, Rakesh Ranjan, Dimitris Samaras, Nikolaos Sarafianos
cs.AI

Résumé

Nous introduisons un nouveau cadre qui apprend un champ de radiance neurale dynamique (NeRF) pour des humains parlants en entier à partir de vidéos monoculaires. Les travaux antérieurs ne représentent que la posture du corps ou le visage. Cependant, les humains communiquent avec tout leur corps, combinant la posture du corps, les gestes des mains, ainsi que les expressions faciales. Dans ce travail, nous proposons TalkinNeRF, un réseau unifié basé sur NeRF qui représente le mouvement humain 4D holistique. Étant donné une vidéo monoculaire d'un sujet, nous apprenons des modules correspondants pour le corps, le visage et les mains, qui sont combinés pour générer le résultat final. Pour capturer l'articulation complexe des doigts, nous apprenons un champ de déformation supplémentaire pour les mains. Notre représentation multi-identités permet un entraînement simultané pour plusieurs sujets, ainsi qu'une animation robuste sous des postures complètement inédites. Elle peut également se généraliser à de nouvelles identités, en ne recevant qu'une courte vidéo en entrée. Nous démontrons des performances de pointe pour l'animation d'humains parlants en entier, avec une articulation fine des mains et des expressions faciales.
English
We introduce a novel framework that learns a dynamic neural radiance field (NeRF) for full-body talking humans from monocular videos. Prior work represents only the body pose or the face. However, humans communicate with their full body, combining body pose, hand gestures, as well as facial expressions. In this work, we propose TalkinNeRF, a unified NeRF-based network that represents the holistic 4D human motion. Given a monocular video of a subject, we learn corresponding modules for the body, face, and hands, that are combined together to generate the final result. To capture complex finger articulation, we learn an additional deformation field for the hands. Our multi-identity representation enables simultaneous training for multiple subjects, as well as robust animation under completely unseen poses. It can also generalize to novel identities, given only a short video as input. We demonstrate state-of-the-art performance for animating full-body talking humans, with fine-grained hand articulation and facial expressions.

Summary

AI-Generated Summary

PDF72November 16, 2024