TalkinNeRF: Campi Neurali Animabili per Esseri Umani Parlanti a Tutto Corpo
TalkinNeRF: Animatable Neural Fields for Full-Body Talking Humans
September 25, 2024
Autori: Aggelina Chatziagapi, Bindita Chaudhuri, Amit Kumar, Rakesh Ranjan, Dimitris Samaras, Nikolaos Sarafianos
cs.AI
Abstract
Introduciamo un nuovo framework che apprende un campo di radianza neurale dinamica (NeRF) per esseri umani parlanti a figura intera da video monoculari. Lavori precedenti rappresentano solo la posa del corpo o il viso. Tuttavia, gli esseri umani comunicano con l'intero corpo, combinando la posa del corpo, i gesti delle mani e le espressioni facciali. In questo lavoro, proponiamo TalkinNeRF, una rete basata su NeRF unificata che rappresenta il movimento umano 4D olistico. Dato un video monocolare di un soggetto, apprendiamo moduli corrispondenti per il corpo, il viso e le mani, che vengono combinati insieme per generare il risultato finale. Per catturare l'articolazione complessa delle dita, apprendiamo un campo di deformazione aggiuntivo per le mani. La nostra rappresentazione multi-identità consente l'addestramento simultaneo per più soggetti, nonché un'animazione robusta in pose completamente inedite. Può inoltre generalizzare a nuove identità, dati solo brevi video in input. Dimostriamo prestazioni all'avanguardia per l'animazione di esseri umani parlanti a figura intera, con articolazione dettagliata delle mani e espressioni facciali.
English
We introduce a novel framework that learns a dynamic neural radiance field
(NeRF) for full-body talking humans from monocular videos. Prior work
represents only the body pose or the face. However, humans communicate with
their full body, combining body pose, hand gestures, as well as facial
expressions. In this work, we propose TalkinNeRF, a unified NeRF-based network
that represents the holistic 4D human motion. Given a monocular video of a
subject, we learn corresponding modules for the body, face, and hands, that are
combined together to generate the final result. To capture complex finger
articulation, we learn an additional deformation field for the hands. Our
multi-identity representation enables simultaneous training for multiple
subjects, as well as robust animation under completely unseen poses. It can
also generalize to novel identities, given only a short video as input. We
demonstrate state-of-the-art performance for animating full-body talking
humans, with fine-grained hand articulation and facial expressions.Summary
AI-Generated Summary