TalkinNeRF: Animierbare neuronale Felder für sprechende Menschen in Ganzkörperdarstellung
TalkinNeRF: Animatable Neural Fields for Full-Body Talking Humans
September 25, 2024
Autoren: Aggelina Chatziagapi, Bindita Chaudhuri, Amit Kumar, Rakesh Ranjan, Dimitris Samaras, Nikolaos Sarafianos
cs.AI
Zusammenfassung
Wir stellen ein neuartiges Framework vor, das ein dynamisches neuronales Strahlungsfeld (NeRF) für sprechende Menschen im Ganzkörper aus monokularen Videos lernt. Frühere Arbeiten stellen nur die Körperhaltung oder das Gesicht dar. Menschen kommunizieren jedoch mit ihrem gesamten Körper, indem sie Körperhaltung, Handgesten sowie Gesichtsausdrücke kombinieren. In dieser Arbeit schlagen wir TalkinNeRF vor, ein vereinheitlichtes NeRF-basiertes Netzwerk, das die ganzheitliche 4D-Menschendarstellung ermöglicht. Anhand eines monokularen Videos einer Person lernen wir entsprechende Module für den Körper, das Gesicht und die Hände, die zusammengeführt werden, um das endgültige Ergebnis zu generieren. Um komplexe Fingerbewegungen zu erfassen, lernen wir ein zusätzliches Deformationsfeld für die Hände. Unsere Multi-Identitäts-Repräsentation ermöglicht simultanes Training für mehrere Personen sowie eine robuste Animation unter völlig neuen Posen. Sie kann auch auf neue Identitäten verallgemeinern, basierend nur auf einem kurzen Video als Eingabe. Wir zeigen eine Leistung auf dem neuesten Stand der Technik für die Animation von sprechenden Menschen im Ganzkörper, mit feingliedriger Handbewegung und Gesichtsausdrücken.
English
We introduce a novel framework that learns a dynamic neural radiance field
(NeRF) for full-body talking humans from monocular videos. Prior work
represents only the body pose or the face. However, humans communicate with
their full body, combining body pose, hand gestures, as well as facial
expressions. In this work, we propose TalkinNeRF, a unified NeRF-based network
that represents the holistic 4D human motion. Given a monocular video of a
subject, we learn corresponding modules for the body, face, and hands, that are
combined together to generate the final result. To capture complex finger
articulation, we learn an additional deformation field for the hands. Our
multi-identity representation enables simultaneous training for multiple
subjects, as well as robust animation under completely unseen poses. It can
also generalize to novel identities, given only a short video as input. We
demonstrate state-of-the-art performance for animating full-body talking
humans, with fine-grained hand articulation and facial expressions.Summary
AI-Generated Summary