Registrazione Rapida di Avatar Fotorealistici per l'Animazione Facciale in Realtà Virtuale

Abstract

La Realtà Virtuale (VR) promette interazioni sociali che possono risultare più immersive rispetto ad altri media. Un elemento chiave è la capacità di animare in modo accurato un avatar fotorealistico che riproduca le sembianze di una persona mentre indossa un visore VR. Sebbene sia possibile ottenere una registrazione di alta qualità di avatar specifici per una persona rispetto alle immagini della telecamera montata sul visore (HMC) in un contesto offline, le prestazioni dei modelli generici in tempo reale risultano significativamente ridotte. La registrazione online è inoltre complessa a causa delle angolazioni oblique della telecamera e delle differenze nella modalità. In questo lavoro, dimostriamo innanzitutto che il divario di dominio tra l’avatar e le immagini della telecamera del visore è una delle principali fonti di difficoltà, dove un’architettura basata su transformer raggiunge un’elevata accuratezza su dati coerenti nel dominio, ma si degrada quando il divario di dominio viene reintrodotto. Sulla base di questa scoperta, sviluppiamo un design di sistema che scompone il problema in due parti: 1) un modulo di raffinamento iterativo che accetta input nel dominio, e 2) un modulo generico di trasferimento di stile da immagine a immagine guidato dall’avatar, condizionato sulla stima corrente dell’espressione e della posizione della testa. Questi due moduli si rafforzano reciprocamente, poiché il trasferimento di stile delle immagini diventa più semplice quando vengono mostrati esempi vicini alla verità di base, e una migliore rimozione del divario di dominio favorisce la registrazione. Il nostro sistema produce risultati di alta qualità in modo efficiente, eliminando la necessità di una costosa registrazione offline per generare etichette personalizzate. Validiamo l’accuratezza e l’efficienza del nostro approccio attraverso esperimenti estesi su un visore di consumo, dimostrando miglioramenti significativi rispetto ai metodi di regressione diretta e alla registrazione offline.

English

Virtual Reality (VR) bares promise of social interactions that can feel more immersive than other media. Key to this is the ability to accurately animate a photorealistic avatar of one's likeness while wearing a VR headset. Although high quality registration of person-specific avatars to headset-mounted camera (HMC) images is possible in an offline setting, the performance of generic realtime models are significantly degraded. Online registration is also challenging due to oblique camera views and differences in modality. In this work, we first show that the domain gap between the avatar and headset-camera images is one of the primary sources of difficulty, where a transformer-based architecture achieves high accuracy on domain-consistent data, but degrades when the domain-gap is re-introduced. Building on this finding, we develop a system design that decouples the problem into two parts: 1) an iterative refinement module that takes in-domain inputs, and 2) a generic avatar-guided image-to-image style transfer module that is conditioned on current estimation of expression and head pose. These two modules reinforce each other, as image style transfer becomes easier when close-to-ground-truth examples are shown, and better domain-gap removal helps registration. Our system produces high-quality results efficiently, obviating the need for costly offline registration to generate personalized labels. We validate the accuracy and efficiency of our approach through extensive experiments on a commodity headset, demonstrating significant improvements over direct regression methods as well as offline registration.

Registrazione Rapida di Avatar Fotorealistici per l'Animazione Facciale in Realtà Virtuale

Fast Registration of Photorealistic Avatars for VR Facial Animation

Abstract

Support