ChatPaper.aiChatPaper

Registro Rápido de Avatares Fotorrealistas para Animación Facial en Realidad Virtual

Fast Registration of Photorealistic Avatars for VR Facial Animation

January 19, 2024
Autores: Chaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei
cs.AI

Resumen

La Realidad Virtual (VR) promete interacciones sociales que pueden sentirse más inmersivas que otros medios. La clave de esto es la capacidad de animar con precisión un avatar fotorrealista que represente la apariencia de uno mientras se usa un casco de VR. Aunque es posible registrar avatares específicos para cada persona con imágenes de cámaras montadas en el casco (HMC) de alta calidad en un entorno fuera de línea, el rendimiento de los modelos genéricos en tiempo real se degrada significativamente. El registro en línea también es desafiante debido a las vistas oblicuas de la cámara y las diferencias en la modalidad. En este trabajo, primero demostramos que la brecha de dominio entre el avatar y las imágenes de la cámara del casco es una de las principales fuentes de dificultad, donde una arquitectura basada en transformadores logra una alta precisión en datos consistentes en el dominio, pero se degrada cuando se reintroduce la brecha de dominio. Basándonos en este hallazgo, desarrollamos un diseño de sistema que desacopla el problema en dos partes: 1) un módulo de refinamiento iterativo que toma entradas dentro del dominio, y 2) un módulo genérico de transferencia de estilo de imagen a imagen guiado por el avatar que está condicionado por la estimación actual de la expresión y la pose de la cabeza. Estos dos módulos se refuerzan mutuamente, ya que la transferencia de estilo de imagen se vuelve más fácil cuando se muestran ejemplos cercanos a la verdad fundamental, y una mejor eliminación de la brecha de dominio ayuda al registro. Nuestro sistema produce resultados de alta calidad de manera eficiente, eliminando la necesidad de un registro fuera de línea costoso para generar etiquetas personalizadas. Validamos la precisión y eficiencia de nuestro enfoque a través de extensos experimentos en un casco comercial, demostrando mejoras significativas sobre los métodos de regresión directa, así como sobre el registro fuera de línea.
English
Virtual Reality (VR) bares promise of social interactions that can feel more immersive than other media. Key to this is the ability to accurately animate a photorealistic avatar of one's likeness while wearing a VR headset. Although high quality registration of person-specific avatars to headset-mounted camera (HMC) images is possible in an offline setting, the performance of generic realtime models are significantly degraded. Online registration is also challenging due to oblique camera views and differences in modality. In this work, we first show that the domain gap between the avatar and headset-camera images is one of the primary sources of difficulty, where a transformer-based architecture achieves high accuracy on domain-consistent data, but degrades when the domain-gap is re-introduced. Building on this finding, we develop a system design that decouples the problem into two parts: 1) an iterative refinement module that takes in-domain inputs, and 2) a generic avatar-guided image-to-image style transfer module that is conditioned on current estimation of expression and head pose. These two modules reinforce each other, as image style transfer becomes easier when close-to-ground-truth examples are shown, and better domain-gap removal helps registration. Our system produces high-quality results efficiently, obviating the need for costly offline registration to generate personalized labels. We validate the accuracy and efficiency of our approach through extensive experiments on a commodity headset, demonstrating significant improvements over direct regression methods as well as offline registration.
PDF21December 15, 2024