Переосвещаемый и анимируемый нейронный аватар на основе видео с ограниченным числом ракурсов
Relightable and Animatable Neural Avatar from Sparse-View Video
August 15, 2023
Авторы: Zhen Xu, Sida Peng, Chen Geng, Linzhan Mou, Zihan Yan, Jiaming Sun, Hujun Bao, Xiaowei Zhou
cs.AI
Аннотация
В данной работе рассматривается задача создания переосвещаемых и анимируемых нейронных аватаров на основе видео с динамичными людьми, снятых с ограниченного числа ракурсов (или даже с одного ракурса) при неизвестном освещении. По сравнению со студийными условиями, такой подход является более практичным и доступным, но представляет собой крайне сложную некорректно поставленную задачу. Существующие методы нейронной реконструкции человека позволяют создавать анимируемые аватары на основе ограниченного числа ракурсов, используя деформированные поля знаковых расстояний (SDF), но не способны восстанавливать параметры материалов для переосвещения. Хотя методы, основанные на дифференцируемом обратном рендеринге, успешно справляются с восстановлением материалов для статичных объектов, их применение к динамичным людям не является тривиальным, поскольку вычисление пересечения пикселей с поверхностью и видимости света на деформированных SDF для обратного рендеринга требует значительных вычислительных ресурсов. Для решения этой задачи мы предлагаем алгоритм иерархического запроса расстояний (HDQ), который аппроксимирует расстояния в мировом пространстве при произвольных позах человека. В частности, мы оцениваем грубые расстояния на основе параметрической модели человека и вычисляем точные расстояния, используя локальную инвариантность деформации SDF. На основе алгоритма HDQ мы применяем сферический трассинг для эффективного определения пересечения с поверхностью и видимости света. Это позволяет нам разработать первую систему, способную восстанавливать анимируемые и переосвещаемые нейронные аватары на основе ограниченного числа ракурсов (или одного ракурса). Эксперименты демонстрируют, что наш подход позволяет получать результаты, превосходящие современные методы. Наш код будет опубликован для обеспечения воспроизводимости.
English
This paper tackles the challenge of creating relightable and animatable
neural avatars from sparse-view (or even monocular) videos of dynamic humans
under unknown illumination. Compared to studio environments, this setting is
more practical and accessible but poses an extremely challenging ill-posed
problem. Previous neural human reconstruction methods are able to reconstruct
animatable avatars from sparse views using deformed Signed Distance Fields
(SDF) but cannot recover material parameters for relighting. While
differentiable inverse rendering-based methods have succeeded in material
recovery of static objects, it is not straightforward to extend them to dynamic
humans as it is computationally intensive to compute pixel-surface intersection
and light visibility on deformed SDFs for inverse rendering. To solve this
challenge, we propose a Hierarchical Distance Query (HDQ) algorithm to
approximate the world space distances under arbitrary human poses.
Specifically, we estimate coarse distances based on a parametric human model
and compute fine distances by exploiting the local deformation invariance of
SDF. Based on the HDQ algorithm, we leverage sphere tracing to efficiently
estimate the surface intersection and light visibility. This allows us to
develop the first system to recover animatable and relightable neural avatars
from sparse view (or monocular) inputs. Experiments demonstrate that our
approach is able to produce superior results compared to state-of-the-art
methods. Our code will be released for reproducibility.