Переосвещаемый и анимируемый нейронный аватар на основе видео с ограниченным числом ракурсов

Аннотация

В данной работе рассматривается задача создания переосвещаемых и анимируемых нейронных аватаров на основе видео с динамичными людьми, снятых с ограниченного числа ракурсов (или даже с одного ракурса) при неизвестном освещении. По сравнению со студийными условиями, такой подход является более практичным и доступным, но представляет собой крайне сложную некорректно поставленную задачу. Существующие методы нейронной реконструкции человека позволяют создавать анимируемые аватары на основе ограниченного числа ракурсов, используя деформированные поля знаковых расстояний (SDF), но не способны восстанавливать параметры материалов для переосвещения. Хотя методы, основанные на дифференцируемом обратном рендеринге, успешно справляются с восстановлением материалов для статичных объектов, их применение к динамичным людям не является тривиальным, поскольку вычисление пересечения пикселей с поверхностью и видимости света на деформированных SDF для обратного рендеринга требует значительных вычислительных ресурсов. Для решения этой задачи мы предлагаем алгоритм иерархического запроса расстояний (HDQ), который аппроксимирует расстояния в мировом пространстве при произвольных позах человека. В частности, мы оцениваем грубые расстояния на основе параметрической модели человека и вычисляем точные расстояния, используя локальную инвариантность деформации SDF. На основе алгоритма HDQ мы применяем сферический трассинг для эффективного определения пересечения с поверхностью и видимости света. Это позволяет нам разработать первую систему, способную восстанавливать анимируемые и переосвещаемые нейронные аватары на основе ограниченного числа ракурсов (или одного ракурса). Эксперименты демонстрируют, что наш подход позволяет получать результаты, превосходящие современные методы. Наш код будет опубликован для обеспечения воспроизводимости.

English

This paper tackles the challenge of creating relightable and animatable neural avatars from sparse-view (or even monocular) videos of dynamic humans under unknown illumination. Compared to studio environments, this setting is more practical and accessible but poses an extremely challenging ill-posed problem. Previous neural human reconstruction methods are able to reconstruct animatable avatars from sparse views using deformed Signed Distance Fields (SDF) but cannot recover material parameters for relighting. While differentiable inverse rendering-based methods have succeeded in material recovery of static objects, it is not straightforward to extend them to dynamic humans as it is computationally intensive to compute pixel-surface intersection and light visibility on deformed SDFs for inverse rendering. To solve this challenge, we propose a Hierarchical Distance Query (HDQ) algorithm to approximate the world space distances under arbitrary human poses. Specifically, we estimate coarse distances based on a parametric human model and compute fine distances by exploiting the local deformation invariance of SDF. Based on the HDQ algorithm, we leverage sphere tracing to efficiently estimate the surface intersection and light visibility. This allows us to develop the first system to recover animatable and relightable neural avatars from sparse view (or monocular) inputs. Experiments demonstrate that our approach is able to produce superior results compared to state-of-the-art methods. Our code will be released for reproducibility.

Переосвещаемый и анимируемый нейронный аватар на основе видео с ограниченным числом ракурсов

Relightable and Animatable Neural Avatar from Sparse-View Video

Аннотация

Support