Registro Rápido de Avatares Fotorrealistas para Animación Facial en Realidad Virtual
Fast Registration of Photorealistic Avatars for VR Facial Animation
January 19, 2024
Autores: Chaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei
cs.AI
Resumen
La Realidad Virtual (VR) promete interacciones sociales que pueden sentirse más inmersivas que otros medios. La clave de esto es la capacidad de animar con precisión un avatar fotorrealista que represente la apariencia de uno mientras se usa un casco de VR. Aunque es posible registrar avatares específicos para cada persona con imágenes de cámaras montadas en el casco (HMC) de alta calidad en un entorno fuera de línea, el rendimiento de los modelos genéricos en tiempo real se degrada significativamente. El registro en línea también es desafiante debido a las vistas oblicuas de la cámara y las diferencias en la modalidad. En este trabajo, primero demostramos que la brecha de dominio entre el avatar y las imágenes de la cámara del casco es una de las principales fuentes de dificultad, donde una arquitectura basada en transformadores logra una alta precisión en datos consistentes en el dominio, pero se degrada cuando se reintroduce la brecha de dominio. Basándonos en este hallazgo, desarrollamos un diseño de sistema que desacopla el problema en dos partes: 1) un módulo de refinamiento iterativo que toma entradas dentro del dominio, y 2) un módulo genérico de transferencia de estilo de imagen a imagen guiado por el avatar que está condicionado por la estimación actual de la expresión y la pose de la cabeza. Estos dos módulos se refuerzan mutuamente, ya que la transferencia de estilo de imagen se vuelve más fácil cuando se muestran ejemplos cercanos a la verdad fundamental, y una mejor eliminación de la brecha de dominio ayuda al registro. Nuestro sistema produce resultados de alta calidad de manera eficiente, eliminando la necesidad de un registro fuera de línea costoso para generar etiquetas personalizadas. Validamos la precisión y eficiencia de nuestro enfoque a través de extensos experimentos en un casco comercial, demostrando mejoras significativas sobre los métodos de regresión directa, así como sobre el registro fuera de línea.
English
Virtual Reality (VR) bares promise of social interactions that can feel more
immersive than other media. Key to this is the ability to accurately animate a
photorealistic avatar of one's likeness while wearing a VR headset. Although
high quality registration of person-specific avatars to headset-mounted camera
(HMC) images is possible in an offline setting, the performance of generic
realtime models are significantly degraded. Online registration is also
challenging due to oblique camera views and differences in modality. In this
work, we first show that the domain gap between the avatar and headset-camera
images is one of the primary sources of difficulty, where a transformer-based
architecture achieves high accuracy on domain-consistent data, but degrades
when the domain-gap is re-introduced. Building on this finding, we develop a
system design that decouples the problem into two parts: 1) an iterative
refinement module that takes in-domain inputs, and 2) a generic avatar-guided
image-to-image style transfer module that is conditioned on current estimation
of expression and head pose. These two modules reinforce each other, as image
style transfer becomes easier when close-to-ground-truth examples are shown,
and better domain-gap removal helps registration. Our system produces
high-quality results efficiently, obviating the need for costly offline
registration to generate personalized labels. We validate the accuracy and
efficiency of our approach through extensive experiments on a commodity
headset, demonstrating significant improvements over direct regression methods
as well as offline registration.