Registro Rápido de Avatares Fotorrealistas para Animação Facial em Realidade Virtual
Fast Registration of Photorealistic Avatars for VR Facial Animation
January 19, 2024
Autores: Chaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei
cs.AI
Resumo
A Realidade Virtual (VR) promete interações sociais que podem parecer mais imersivas do que outras mídias. A chave para isso é a capacidade de animar com precisão um avatar fotorrealista que se assemelhe ao usuário enquanto ele usa um headset de VR. Embora o registro de alta qualidade de avatares específicos para cada pessoa em imagens de câmeras montadas no headset (HMC) seja possível em um ambiente offline, o desempenho de modelos genéricos em tempo real é significativamente degradado. O registro online também é desafiador devido às vistas oblíquas da câmera e às diferenças de modalidade. Neste trabalho, primeiro mostramos que a lacuna de domínio entre o avatar e as imagens da câmera do headset é uma das principais fontes de dificuldade, onde uma arquitetura baseada em transformadores alcança alta precisão em dados consistentes com o domínio, mas se degrada quando a lacuna de domínio é reintroduzida. Com base nessa descoberta, desenvolvemos um design de sistema que desacopla o problema em duas partes: 1) um módulo de refinamento iterativo que recebe entradas dentro do domínio, e 2) um módulo genérico de transferência de estilo de imagem para imagem guiado por avatar, que é condicionado à estimativa atual de expressão e pose da cabeça. Esses dois módulos se reforçam mutuamente, pois a transferência de estilo de imagem se torna mais fácil quando exemplos próximos da verdade são mostrados, e uma melhor remoção da lacuna de domínio ajuda no registro. Nosso sistema produz resultados de alta qualidade de forma eficiente, eliminando a necessidade de registro offline custoso para gerar rótulos personalizados. Validamos a precisão e eficiência de nossa abordagem por meio de extensos experimentos em um headset comercial, demonstrando melhorias significativas em relação a métodos de regressão direta, bem como ao registro offline.
English
Virtual Reality (VR) bares promise of social interactions that can feel more
immersive than other media. Key to this is the ability to accurately animate a
photorealistic avatar of one's likeness while wearing a VR headset. Although
high quality registration of person-specific avatars to headset-mounted camera
(HMC) images is possible in an offline setting, the performance of generic
realtime models are significantly degraded. Online registration is also
challenging due to oblique camera views and differences in modality. In this
work, we first show that the domain gap between the avatar and headset-camera
images is one of the primary sources of difficulty, where a transformer-based
architecture achieves high accuracy on domain-consistent data, but degrades
when the domain-gap is re-introduced. Building on this finding, we develop a
system design that decouples the problem into two parts: 1) an iterative
refinement module that takes in-domain inputs, and 2) a generic avatar-guided
image-to-image style transfer module that is conditioned on current estimation
of expression and head pose. These two modules reinforce each other, as image
style transfer becomes easier when close-to-ground-truth examples are shown,
and better domain-gap removal helps registration. Our system produces
high-quality results efficiently, obviating the need for costly offline
registration to generate personalized labels. We validate the accuracy and
efficiency of our approach through extensive experiments on a commodity
headset, demonstrating significant improvements over direct regression methods
as well as offline registration.