AvatarReX: Avatares de cuerpo completo expresivos en tiempo real
AvatarReX: Real-time Expressive Full-body Avatars
May 8, 2023
Autores: Zerong Zheng, Xiaochen Zhao, Hongwen Zhang, Boning Liu, Yebin Liu
cs.AI
Resumen
Presentamos AvatarReX, un nuevo método para aprender avatares de cuerpo completo basados en NeRF a partir de datos de video. El avatar aprendido no solo proporciona un control expresivo del cuerpo, las manos y el rostro en conjunto, sino que también admite animación y renderizado en tiempo real. Para ello, proponemos una representación composicional del avatar, donde el cuerpo, las manos y el rostro se modelan por separado de manera que se aprovecha adecuadamente el conocimiento estructural de plantillas de mallas paramétricas sin comprometer la flexibilidad de la representación. Además, desenredamos la geometría y la apariencia de cada parte. Con estos diseños técnicos, proponemos una canalización de renderizado diferido dedicada, que puede ejecutarse a una velocidad de fotogramas en tiempo real para sintetizar imágenes de alta calidad desde cualquier ángulo. El desenredo de la geometría y la apariencia también nos permite diseñar una estrategia de entrenamiento en dos pasos que combina el renderizado volumétrico y el renderizado de superficie para el entrenamiento de la red. De esta manera, se puede aplicar supervisión a nivel de parches para obligar a la red a aprender detalles nítidos de apariencia basados en la estimación de la geometría. En general, nuestro método permite la construcción automática de avatares de cuerpo completo expresivos con capacidad de renderizado en tiempo real, y puede generar imágenes fotorrealistas con detalles dinámicos para nuevos movimientos corporales y expresiones faciales.
English
We present AvatarReX, a new method for learning NeRF-based full-body avatars
from video data. The learnt avatar not only provides expressive control of the
body, hands and the face together, but also supports real-time animation and
rendering. To this end, we propose a compositional avatar representation, where
the body, hands and the face are separately modeled in a way that the
structural prior from parametric mesh templates is properly utilized without
compromising representation flexibility. Furthermore, we disentangle the
geometry and appearance for each part. With these technical designs, we propose
a dedicated deferred rendering pipeline, which can be executed in real-time
framerate to synthesize high-quality free-view images. The disentanglement of
geometry and appearance also allows us to design a two-pass training strategy
that combines volume rendering and surface rendering for network training. In
this way, patch-level supervision can be applied to force the network to learn
sharp appearance details on the basis of geometry estimation. Overall, our
method enables automatic construction of expressive full-body avatars with
real-time rendering capability, and can generate photo-realistic images with
dynamic details for novel body motions and facial expressions.