ChatPaper.aiChatPaper

TalkinNeRF: Animeerbare neurale velden voor pratende mensen met een volledig lichaam

TalkinNeRF: Animatable Neural Fields for Full-Body Talking Humans

September 25, 2024
Auteurs: Aggelina Chatziagapi, Bindita Chaudhuri, Amit Kumar, Rakesh Ranjan, Dimitris Samaras, Nikolaos Sarafianos
cs.AI

Samenvatting

We introduceren een nieuw raamwerk dat een dynamisch neuronaal stralingsveld (NeRF) leert voor pratende mensen met een volledig lichaam van monoculaire video's. Eerdere werken stellen alleen de lichaamshouding of het gezicht voor. Mensen communiceren echter met hun volledige lichaam, waarbij lichaamshouding, handgebaren en gezichtsuitdrukkingen worden gecombineerd. In dit werk stellen we TalkinNeRF voor, een verenigd NeRF-gebaseerd netwerk dat de holistische 4D-menselijke beweging vertegenwoordigt. Gegeven een monoculaire video van een onderwerp, leren we overeenkomstige modules voor het lichaam, het gezicht en de handen, die samen worden gecombineerd om het uiteindelijke resultaat te genereren. Om complexe vingerarticulatie vast te leggen, leren we een aanvullend vervormingsveld voor de handen. Onze multi-identiteitsrepresentatie maakt gelijktijdige training voor meerdere onderwerpen mogelijk, evenals robuuste animatie onder volledig ongeziene houdingen. Het kan ook generaliseren naar nieuwe identiteiten, met alleen een korte video als invoer. We tonen prestaties van het hoogste niveau voor het animeren van pratende mensen met een volledig lichaam, met fijnmazige handarticulatie en gezichtsuitdrukkingen.
English
We introduce a novel framework that learns a dynamic neural radiance field (NeRF) for full-body talking humans from monocular videos. Prior work represents only the body pose or the face. However, humans communicate with their full body, combining body pose, hand gestures, as well as facial expressions. In this work, we propose TalkinNeRF, a unified NeRF-based network that represents the holistic 4D human motion. Given a monocular video of a subject, we learn corresponding modules for the body, face, and hands, that are combined together to generate the final result. To capture complex finger articulation, we learn an additional deformation field for the hands. Our multi-identity representation enables simultaneous training for multiple subjects, as well as robust animation under completely unseen poses. It can also generalize to novel identities, given only a short video as input. We demonstrate state-of-the-art performance for animating full-body talking humans, with fine-grained hand articulation and facial expressions.

Summary

AI-Generated Summary

PDF72November 16, 2024