ChatPaper.aiChatPaper

Registro Rápido de Avatares Fotorrealistas para Animação Facial em Realidade Virtual

Fast Registration of Photorealistic Avatars for VR Facial Animation

January 19, 2024
Autores: Chaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei
cs.AI

Resumo

A Realidade Virtual (VR) promete interações sociais que podem parecer mais imersivas do que outras mídias. A chave para isso é a capacidade de animar com precisão um avatar fotorrealista que se assemelhe ao usuário enquanto ele usa um headset de VR. Embora o registro de alta qualidade de avatares específicos para cada pessoa em imagens de câmeras montadas no headset (HMC) seja possível em um ambiente offline, o desempenho de modelos genéricos em tempo real é significativamente degradado. O registro online também é desafiador devido às vistas oblíquas da câmera e às diferenças de modalidade. Neste trabalho, primeiro mostramos que a lacuna de domínio entre o avatar e as imagens da câmera do headset é uma das principais fontes de dificuldade, onde uma arquitetura baseada em transformadores alcança alta precisão em dados consistentes com o domínio, mas se degrada quando a lacuna de domínio é reintroduzida. Com base nessa descoberta, desenvolvemos um design de sistema que desacopla o problema em duas partes: 1) um módulo de refinamento iterativo que recebe entradas dentro do domínio, e 2) um módulo genérico de transferência de estilo de imagem para imagem guiado por avatar, que é condicionado à estimativa atual de expressão e pose da cabeça. Esses dois módulos se reforçam mutuamente, pois a transferência de estilo de imagem se torna mais fácil quando exemplos próximos da verdade são mostrados, e uma melhor remoção da lacuna de domínio ajuda no registro. Nosso sistema produz resultados de alta qualidade de forma eficiente, eliminando a necessidade de registro offline custoso para gerar rótulos personalizados. Validamos a precisão e eficiência de nossa abordagem por meio de extensos experimentos em um headset comercial, demonstrando melhorias significativas em relação a métodos de regressão direta, bem como ao registro offline.
English
Virtual Reality (VR) bares promise of social interactions that can feel more immersive than other media. Key to this is the ability to accurately animate a photorealistic avatar of one's likeness while wearing a VR headset. Although high quality registration of person-specific avatars to headset-mounted camera (HMC) images is possible in an offline setting, the performance of generic realtime models are significantly degraded. Online registration is also challenging due to oblique camera views and differences in modality. In this work, we first show that the domain gap between the avatar and headset-camera images is one of the primary sources of difficulty, where a transformer-based architecture achieves high accuracy on domain-consistent data, but degrades when the domain-gap is re-introduced. Building on this finding, we develop a system design that decouples the problem into two parts: 1) an iterative refinement module that takes in-domain inputs, and 2) a generic avatar-guided image-to-image style transfer module that is conditioned on current estimation of expression and head pose. These two modules reinforce each other, as image style transfer becomes easier when close-to-ground-truth examples are shown, and better domain-gap removal helps registration. Our system produces high-quality results efficiently, obviating the need for costly offline registration to generate personalized labels. We validate the accuracy and efficiency of our approach through extensive experiments on a commodity headset, demonstrating significant improvements over direct regression methods as well as offline registration.
PDF21December 15, 2024