Enregistrement rapide d'avatars photoréalistes pour l'animation faciale en réalité virtuelle
Fast Registration of Photorealistic Avatars for VR Facial Animation
January 19, 2024
papers.authors: Chaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei
cs.AI
papers.abstract
La réalité virtuelle (VR) promet des interactions sociales qui peuvent sembler plus immersives que d'autres médias. La clé de cela réside dans la capacité à animer avec précision un avatar photoréaliste à son image tout en portant un casque VR. Bien qu'un enregistrement de haute qualité d'avatars spécifiques à une personne à partir d'images de caméra montée sur casque (HMC) soit possible dans un contexte hors ligne, les performances des modèles génériques en temps réel sont considérablement dégradées. L'enregistrement en ligne est également difficile en raison des angles de vue obliques de la caméra et des différences de modalité. Dans ce travail, nous montrons d'abord que l'écart de domaine entre l'avatar et les images de la caméra du casque est l'une des principales sources de difficulté, où une architecture basée sur les transformateurs atteint une grande précision sur des données cohérentes en termes de domaine, mais se dégrade lorsque l'écart de domaine est réintroduit. En nous appuyant sur cette découverte, nous développons une conception de système qui découple le problème en deux parties : 1) un module de raffinement itératif qui prend des entrées dans le domaine, et 2) un module générique de transfert de style image-à-image guidé par l'avatar, conditionné par l'estimation actuelle de l'expression et de la pose de la tête. Ces deux modules se renforcent mutuellement, car le transfert de style d'image devient plus facile lorsque des exemples proches de la vérité terrain sont présentés, et une meilleure suppression de l'écart de domaine aide à l'enregistrement. Notre système produit des résultats de haute qualité de manière efficace, éliminant le besoin d'un enregistrement hors ligne coûteux pour générer des étiquettes personnalisées. Nous validons la précision et l'efficacité de notre approche grâce à des expériences approfondies sur un casque grand public, démontrant des améliorations significatives par rapport aux méthodes de régression directe ainsi qu'à l'enregistrement hors ligne.
English
Virtual Reality (VR) bares promise of social interactions that can feel more
immersive than other media. Key to this is the ability to accurately animate a
photorealistic avatar of one's likeness while wearing a VR headset. Although
high quality registration of person-specific avatars to headset-mounted camera
(HMC) images is possible in an offline setting, the performance of generic
realtime models are significantly degraded. Online registration is also
challenging due to oblique camera views and differences in modality. In this
work, we first show that the domain gap between the avatar and headset-camera
images is one of the primary sources of difficulty, where a transformer-based
architecture achieves high accuracy on domain-consistent data, but degrades
when the domain-gap is re-introduced. Building on this finding, we develop a
system design that decouples the problem into two parts: 1) an iterative
refinement module that takes in-domain inputs, and 2) a generic avatar-guided
image-to-image style transfer module that is conditioned on current estimation
of expression and head pose. These two modules reinforce each other, as image
style transfer becomes easier when close-to-ground-truth examples are shown,
and better domain-gap removal helps registration. Our system produces
high-quality results efficiently, obviating the need for costly offline
registration to generate personalized labels. We validate the accuracy and
efficiency of our approach through extensive experiments on a commodity
headset, demonstrating significant improvements over direct regression methods
as well as offline registration.