ChatPaper.aiChatPaper

Enregistrement rapide d'avatars photoréalistes pour l'animation faciale en réalité virtuelle

Fast Registration of Photorealistic Avatars for VR Facial Animation

January 19, 2024
papers.authors: Chaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei
cs.AI

papers.abstract

La réalité virtuelle (VR) promet des interactions sociales qui peuvent sembler plus immersives que d'autres médias. La clé de cela réside dans la capacité à animer avec précision un avatar photoréaliste à son image tout en portant un casque VR. Bien qu'un enregistrement de haute qualité d'avatars spécifiques à une personne à partir d'images de caméra montée sur casque (HMC) soit possible dans un contexte hors ligne, les performances des modèles génériques en temps réel sont considérablement dégradées. L'enregistrement en ligne est également difficile en raison des angles de vue obliques de la caméra et des différences de modalité. Dans ce travail, nous montrons d'abord que l'écart de domaine entre l'avatar et les images de la caméra du casque est l'une des principales sources de difficulté, où une architecture basée sur les transformateurs atteint une grande précision sur des données cohérentes en termes de domaine, mais se dégrade lorsque l'écart de domaine est réintroduit. En nous appuyant sur cette découverte, nous développons une conception de système qui découple le problème en deux parties : 1) un module de raffinement itératif qui prend des entrées dans le domaine, et 2) un module générique de transfert de style image-à-image guidé par l'avatar, conditionné par l'estimation actuelle de l'expression et de la pose de la tête. Ces deux modules se renforcent mutuellement, car le transfert de style d'image devient plus facile lorsque des exemples proches de la vérité terrain sont présentés, et une meilleure suppression de l'écart de domaine aide à l'enregistrement. Notre système produit des résultats de haute qualité de manière efficace, éliminant le besoin d'un enregistrement hors ligne coûteux pour générer des étiquettes personnalisées. Nous validons la précision et l'efficacité de notre approche grâce à des expériences approfondies sur un casque grand public, démontrant des améliorations significatives par rapport aux méthodes de régression directe ainsi qu'à l'enregistrement hors ligne.
English
Virtual Reality (VR) bares promise of social interactions that can feel more immersive than other media. Key to this is the ability to accurately animate a photorealistic avatar of one's likeness while wearing a VR headset. Although high quality registration of person-specific avatars to headset-mounted camera (HMC) images is possible in an offline setting, the performance of generic realtime models are significantly degraded. Online registration is also challenging due to oblique camera views and differences in modality. In this work, we first show that the domain gap between the avatar and headset-camera images is one of the primary sources of difficulty, where a transformer-based architecture achieves high accuracy on domain-consistent data, but degrades when the domain-gap is re-introduced. Building on this finding, we develop a system design that decouples the problem into two parts: 1) an iterative refinement module that takes in-domain inputs, and 2) a generic avatar-guided image-to-image style transfer module that is conditioned on current estimation of expression and head pose. These two modules reinforce each other, as image style transfer becomes easier when close-to-ground-truth examples are shown, and better domain-gap removal helps registration. Our system produces high-quality results efficiently, obviating the need for costly offline registration to generate personalized labels. We validate the accuracy and efficiency of our approach through extensive experiments on a commodity headset, demonstrating significant improvements over direct regression methods as well as offline registration.
PDF21December 15, 2024