AvatarReX: Avatares de cuerpo completo expresivos en tiempo real

Resumen

Presentamos AvatarReX, un nuevo método para aprender avatares de cuerpo completo basados en NeRF a partir de datos de video. El avatar aprendido no solo proporciona un control expresivo del cuerpo, las manos y el rostro en conjunto, sino que también admite animación y renderizado en tiempo real. Para ello, proponemos una representación composicional del avatar, donde el cuerpo, las manos y el rostro se modelan por separado de manera que se aprovecha adecuadamente el conocimiento estructural de plantillas de mallas paramétricas sin comprometer la flexibilidad de la representación. Además, desenredamos la geometría y la apariencia de cada parte. Con estos diseños técnicos, proponemos una canalización de renderizado diferido dedicada, que puede ejecutarse a una velocidad de fotogramas en tiempo real para sintetizar imágenes de alta calidad desde cualquier ángulo. El desenredo de la geometría y la apariencia también nos permite diseñar una estrategia de entrenamiento en dos pasos que combina el renderizado volumétrico y el renderizado de superficie para el entrenamiento de la red. De esta manera, se puede aplicar supervisión a nivel de parches para obligar a la red a aprender detalles nítidos de apariencia basados en la estimación de la geometría. En general, nuestro método permite la construcción automática de avatares de cuerpo completo expresivos con capacidad de renderizado en tiempo real, y puede generar imágenes fotorrealistas con detalles dinámicos para nuevos movimientos corporales y expresiones faciales.

English

We present AvatarReX, a new method for learning NeRF-based full-body avatars from video data. The learnt avatar not only provides expressive control of the body, hands and the face together, but also supports real-time animation and rendering. To this end, we propose a compositional avatar representation, where the body, hands and the face are separately modeled in a way that the structural prior from parametric mesh templates is properly utilized without compromising representation flexibility. Furthermore, we disentangle the geometry and appearance for each part. With these technical designs, we propose a dedicated deferred rendering pipeline, which can be executed in real-time framerate to synthesize high-quality free-view images. The disentanglement of geometry and appearance also allows us to design a two-pass training strategy that combines volume rendering and surface rendering for network training. In this way, patch-level supervision can be applied to force the network to learn sharp appearance details on the basis of geometry estimation. Overall, our method enables automatic construction of expressive full-body avatars with real-time rendering capability, and can generate photo-realistic images with dynamic details for novel body motions and facial expressions.

AvatarReX: Avatares de cuerpo completo expresivos en tiempo real

AvatarReX: Real-time Expressive Full-body Avatars

Resumen

Support