Registrazione Rapida di Avatar Fotorealistici per l'Animazione Facciale in Realtà Virtuale
Fast Registration of Photorealistic Avatars for VR Facial Animation
January 19, 2024
Autori: Chaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei
cs.AI
Abstract
La Realtà Virtuale (VR) promette interazioni sociali che possono risultare più immersive rispetto ad altri media. Un elemento chiave è la capacità di animare in modo accurato un avatar fotorealistico che riproduca le sembianze di una persona mentre indossa un visore VR. Sebbene sia possibile ottenere una registrazione di alta qualità di avatar specifici per una persona rispetto alle immagini della telecamera montata sul visore (HMC) in un contesto offline, le prestazioni dei modelli generici in tempo reale risultano significativamente ridotte. La registrazione online è inoltre complessa a causa delle angolazioni oblique della telecamera e delle differenze nella modalità. In questo lavoro, dimostriamo innanzitutto che il divario di dominio tra l’avatar e le immagini della telecamera del visore è una delle principali fonti di difficoltà, dove un’architettura basata su transformer raggiunge un’elevata accuratezza su dati coerenti nel dominio, ma si degrada quando il divario di dominio viene reintrodotto. Sulla base di questa scoperta, sviluppiamo un design di sistema che scompone il problema in due parti: 1) un modulo di raffinamento iterativo che accetta input nel dominio, e 2) un modulo generico di trasferimento di stile da immagine a immagine guidato dall’avatar, condizionato sulla stima corrente dell’espressione e della posizione della testa. Questi due moduli si rafforzano reciprocamente, poiché il trasferimento di stile delle immagini diventa più semplice quando vengono mostrati esempi vicini alla verità di base, e una migliore rimozione del divario di dominio favorisce la registrazione. Il nostro sistema produce risultati di alta qualità in modo efficiente, eliminando la necessità di una costosa registrazione offline per generare etichette personalizzate. Validiamo l’accuratezza e l’efficienza del nostro approccio attraverso esperimenti estesi su un visore di consumo, dimostrando miglioramenti significativi rispetto ai metodi di regressione diretta e alla registrazione offline.
English
Virtual Reality (VR) bares promise of social interactions that can feel more
immersive than other media. Key to this is the ability to accurately animate a
photorealistic avatar of one's likeness while wearing a VR headset. Although
high quality registration of person-specific avatars to headset-mounted camera
(HMC) images is possible in an offline setting, the performance of generic
realtime models are significantly degraded. Online registration is also
challenging due to oblique camera views and differences in modality. In this
work, we first show that the domain gap between the avatar and headset-camera
images is one of the primary sources of difficulty, where a transformer-based
architecture achieves high accuracy on domain-consistent data, but degrades
when the domain-gap is re-introduced. Building on this finding, we develop a
system design that decouples the problem into two parts: 1) an iterative
refinement module that takes in-domain inputs, and 2) a generic avatar-guided
image-to-image style transfer module that is conditioned on current estimation
of expression and head pose. These two modules reinforce each other, as image
style transfer becomes easier when close-to-ground-truth examples are shown,
and better domain-gap removal helps registration. Our system produces
high-quality results efficiently, obviating the need for costly offline
registration to generate personalized labels. We validate the accuracy and
efficiency of our approach through extensive experiments on a commodity
headset, demonstrating significant improvements over direct regression methods
as well as offline registration.