Быстрая регистрация фотореалистичных аватаров для мимической анимации в виртуальной реальности
Fast Registration of Photorealistic Avatars for VR Facial Animation
January 19, 2024
Авторы: Chaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei
cs.AI
Аннотация
Виртуальная реальность (VR) открывает перспективы для социальных взаимодействий, которые могут ощущаться более погружающими, чем другие медиа. Ключевым аспектом здесь является возможность точной анимации фотореалистичного аватара, отражающего внешность пользователя, в режиме реального времени при использовании VR-гарнитуры. Хотя высококачественная регистрация персонализированных аватаров на основе изображений с камеры, установленной на гарнитуре (HMC), возможна в офлайн-режиме, производительность универсальных моделей в реальном времени значительно снижается. Онлайн-регистрация также представляет сложность из-за косых углов обзора камеры и различий в модальности. В данной работе мы сначала показываем, что разрыв между доменами аватара и изображений с камеры гарнитуры является одной из основных причин трудностей: архитектура на основе трансформеров достигает высокой точности на данных, согласованных по домену, но её эффективность снижается при повторном введении разрыва между доменами. Опираясь на это наблюдение, мы разрабатываем системный подход, который разделяет задачу на две части: 1) модуль итеративного уточнения, работающий с входными данными из одного домена, и 2) универсальный модуль переноса стиля "изображение-в-изображение", управляемый аватаром и учитывающий текущую оценку выражения лица и позы головы. Эти два модуля взаимно усиливают друг друга, поскольку перенос стиля становится проще при наличии примеров, близких к истинным значениям, а лучшее устранение разрыва между доменами улучшает регистрацию. Наша система эффективно создаёт высококачественные результаты, устраняя необходимость в дорогостоящей офлайн-регистрации для генерации персонализированных меток. Мы подтверждаем точность и эффективность нашего подхода с помощью обширных экспериментов на потребительской гарнитуре, демонстрируя значительные улучшения по сравнению с методами прямой регрессии и офлайн-регистрацией.
English
Virtual Reality (VR) bares promise of social interactions that can feel more
immersive than other media. Key to this is the ability to accurately animate a
photorealistic avatar of one's likeness while wearing a VR headset. Although
high quality registration of person-specific avatars to headset-mounted camera
(HMC) images is possible in an offline setting, the performance of generic
realtime models are significantly degraded. Online registration is also
challenging due to oblique camera views and differences in modality. In this
work, we first show that the domain gap between the avatar and headset-camera
images is one of the primary sources of difficulty, where a transformer-based
architecture achieves high accuracy on domain-consistent data, but degrades
when the domain-gap is re-introduced. Building on this finding, we develop a
system design that decouples the problem into two parts: 1) an iterative
refinement module that takes in-domain inputs, and 2) a generic avatar-guided
image-to-image style transfer module that is conditioned on current estimation
of expression and head pose. These two modules reinforce each other, as image
style transfer becomes easier when close-to-ground-truth examples are shown,
and better domain-gap removal helps registration. Our system produces
high-quality results efficiently, obviating the need for costly offline
registration to generate personalized labels. We validate the accuracy and
efficiency of our approach through extensive experiments on a commodity
headset, demonstrating significant improvements over direct regression methods
as well as offline registration.