ChatPaper.aiChatPaper

Быстрая регистрация фотореалистичных аватаров для мимической анимации в виртуальной реальности

Fast Registration of Photorealistic Avatars for VR Facial Animation

January 19, 2024
Авторы: Chaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei
cs.AI

Аннотация

Виртуальная реальность (VR) открывает перспективы для социальных взаимодействий, которые могут ощущаться более погружающими, чем другие медиа. Ключевым аспектом здесь является возможность точной анимации фотореалистичного аватара, отражающего внешность пользователя, в режиме реального времени при использовании VR-гарнитуры. Хотя высококачественная регистрация персонализированных аватаров на основе изображений с камеры, установленной на гарнитуре (HMC), возможна в офлайн-режиме, производительность универсальных моделей в реальном времени значительно снижается. Онлайн-регистрация также представляет сложность из-за косых углов обзора камеры и различий в модальности. В данной работе мы сначала показываем, что разрыв между доменами аватара и изображений с камеры гарнитуры является одной из основных причин трудностей: архитектура на основе трансформеров достигает высокой точности на данных, согласованных по домену, но её эффективность снижается при повторном введении разрыва между доменами. Опираясь на это наблюдение, мы разрабатываем системный подход, который разделяет задачу на две части: 1) модуль итеративного уточнения, работающий с входными данными из одного домена, и 2) универсальный модуль переноса стиля "изображение-в-изображение", управляемый аватаром и учитывающий текущую оценку выражения лица и позы головы. Эти два модуля взаимно усиливают друг друга, поскольку перенос стиля становится проще при наличии примеров, близких к истинным значениям, а лучшее устранение разрыва между доменами улучшает регистрацию. Наша система эффективно создаёт высококачественные результаты, устраняя необходимость в дорогостоящей офлайн-регистрации для генерации персонализированных меток. Мы подтверждаем точность и эффективность нашего подхода с помощью обширных экспериментов на потребительской гарнитуре, демонстрируя значительные улучшения по сравнению с методами прямой регрессии и офлайн-регистрацией.
English
Virtual Reality (VR) bares promise of social interactions that can feel more immersive than other media. Key to this is the ability to accurately animate a photorealistic avatar of one's likeness while wearing a VR headset. Although high quality registration of person-specific avatars to headset-mounted camera (HMC) images is possible in an offline setting, the performance of generic realtime models are significantly degraded. Online registration is also challenging due to oblique camera views and differences in modality. In this work, we first show that the domain gap between the avatar and headset-camera images is one of the primary sources of difficulty, where a transformer-based architecture achieves high accuracy on domain-consistent data, but degrades when the domain-gap is re-introduced. Building on this finding, we develop a system design that decouples the problem into two parts: 1) an iterative refinement module that takes in-domain inputs, and 2) a generic avatar-guided image-to-image style transfer module that is conditioned on current estimation of expression and head pose. These two modules reinforce each other, as image style transfer becomes easier when close-to-ground-truth examples are shown, and better domain-gap removal helps registration. Our system produces high-quality results efficiently, obviating the need for costly offline registration to generate personalized labels. We validate the accuracy and efficiency of our approach through extensive experiments on a commodity headset, demonstrating significant improvements over direct regression methods as well as offline registration.
PDF21December 15, 2024