ChatPaper.aiChatPaper

TalkinNeRF: Анимируемые нейронные поля для разговора на весь рост человека.

TalkinNeRF: Animatable Neural Fields for Full-Body Talking Humans

September 25, 2024
Авторы: Aggelina Chatziagapi, Bindita Chaudhuri, Amit Kumar, Rakesh Ranjan, Dimitris Samaras, Nikolaos Sarafianos
cs.AI

Аннотация

Мы представляем новый фреймворк, который обучает динамическое нейронное поле радиации (NeRF) для полнотелых разговаривающих людей по видео с одной камеры. Предыдущие работы представляли только позу тела или лицо. Однако люди общаются с помощью всего своего тела, объединяя позу тела, жесты рук, а также мимику лица. В данной работе мы предлагаем TalkinNeRF, объединенную сеть на основе NeRF, которая представляет целостное 4D движение человека. Учитывая монокулярное видео объекта, мы обучаем соответствующие модули для тела, лица и рук, которые объединяются вместе для генерации конечного результата. Для захвата сложной артикуляции пальцев мы обучаем дополнительное поле деформации для рук. Наше множественное представление личности позволяет одновременное обучение для нескольких объектов, а также надежную анимацию под совершенно невидимыми позами. Оно также способно обобщаться на новые личности, имея только короткое видео на входе. Мы продемонстрировали передовые результаты в анимации полнотелых разговаривающих людей с детализированной артикуляцией рук и мимикой лица.
English
We introduce a novel framework that learns a dynamic neural radiance field (NeRF) for full-body talking humans from monocular videos. Prior work represents only the body pose or the face. However, humans communicate with their full body, combining body pose, hand gestures, as well as facial expressions. In this work, we propose TalkinNeRF, a unified NeRF-based network that represents the holistic 4D human motion. Given a monocular video of a subject, we learn corresponding modules for the body, face, and hands, that are combined together to generate the final result. To capture complex finger articulation, we learn an additional deformation field for the hands. Our multi-identity representation enables simultaneous training for multiple subjects, as well as robust animation under completely unseen poses. It can also generalize to novel identities, given only a short video as input. We demonstrate state-of-the-art performance for animating full-body talking humans, with fine-grained hand articulation and facial expressions.

Summary

AI-Generated Summary

PDF72November 16, 2024