AvatarReX: Выразительные аватары всего тела в реальном времени
AvatarReX: Real-time Expressive Full-body Avatars
May 8, 2023
Авторы: Zerong Zheng, Xiaochen Zhao, Hongwen Zhang, Boning Liu, Yebin Liu
cs.AI
Аннотация
Мы представляем AvatarReX — новый метод для обучения полнотелых аватаров на основе NeRF (Neural Radiance Fields) с использованием видеоданных. Обученный аватар не только обеспечивает выразительное управление телом, руками и лицом одновременно, но также поддерживает анимацию и рендеринг в реальном времени. Для достижения этого мы предлагаем композиционное представление аватара, в котором тело, руки и лицо моделируются отдельно таким образом, что структурные априорные данные из параметрических шаблонов сеток эффективно используются без ущерба для гибкости представления. Кроме того, мы разделяем геометрию и внешний вид для каждой части. Благодаря этим техническим решениям мы предлагаем специализированный конвейер отложенного рендеринга, который может выполняться с частотой кадров в реальном времени для синтеза высококачественных изображений с произвольного ракурса. Разделение геометрии и внешнего вида также позволяет нам разработать двухэтапную стратегию обучения, которая сочетает объемный и поверхностный рендеринг для тренировки сети. Таким образом, можно применять пошаговый контроль на уровне патчей, чтобы заставить сеть изучать четкие детали внешнего вида на основе оценки геометрии. В целом, наш метод позволяет автоматически создавать выразительные полнотелые аватары с возможностью рендеринга в реальном времени и генерировать фотореалистичные изображения с динамическими деталями для новых движений тела и мимики.
English
We present AvatarReX, a new method for learning NeRF-based full-body avatars
from video data. The learnt avatar not only provides expressive control of the
body, hands and the face together, but also supports real-time animation and
rendering. To this end, we propose a compositional avatar representation, where
the body, hands and the face are separately modeled in a way that the
structural prior from parametric mesh templates is properly utilized without
compromising representation flexibility. Furthermore, we disentangle the
geometry and appearance for each part. With these technical designs, we propose
a dedicated deferred rendering pipeline, which can be executed in real-time
framerate to synthesize high-quality free-view images. The disentanglement of
geometry and appearance also allows us to design a two-pass training strategy
that combines volume rendering and surface rendering for network training. In
this way, patch-level supervision can be applied to force the network to learn
sharp appearance details on the basis of geometry estimation. Overall, our
method enables automatic construction of expressive full-body avatars with
real-time rendering capability, and can generate photo-realistic images with
dynamic details for novel body motions and facial expressions.