VR 얼굴 애니메이션을 위한 사실적 아바타의 빠른 등록
Fast Registration of Photorealistic Avatars for VR Facial Animation
January 19, 2024
저자: Chaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei
cs.AI
초록
가상 현실(VR)은 다른 매체보다 더 몰입감 있는 사회적 상호작용을 가능케 할 잠재력을 지니고 있습니다. 이의 핵심은 VR 헤드셋을 착용한 상태에서 자신의 모습을 닮은 사실적인 아바타를 정확하게 애니메이션화할 수 있는 능력입니다. 헤드셋 장착 카메라(HMC) 이미지에 대한 개인별 아바타의 고품질 등록은 오프라인 환경에서 가능하지만, 일반적인 실시간 모델의 성능은 크게 저하됩니다. 또한, 사선 카메라 시야와 모달리티 차이로 인해 온라인 등록도 어려운 과제입니다. 본 연구에서는 먼저 아바타와 헤드셋 카메라 이미지 간의 도메인 격차가 주요 어려움의 원인 중 하나임을 보여주며, 트랜스포머 기반 아키텍처가 도메인 일관성 데이터에서는 높은 정확도를 달성하지만 도메인 격차가 다시 도입되면 성능이 저하됨을 확인했습니다. 이를 바탕으로, 문제를 두 부분으로 분리하는 시스템 설계를 개발했습니다: 1) 도메인 내 입력을 받는 반복적 정제 모듈, 그리고 2) 현재 추정된 표정과 머리 포즈를 조건으로 하는 일반 아바타 기반 이미지-투-이미지 스타일 전이 모듈. 이 두 모듈은 상호 보완적으로 작동하며, 실제에 가까운 예제가 제공될수록 이미지 스타일 전이가 쉬워지고, 더 나은 도메인 격차 제거는 등록에 도움을 줍니다. 우리의 시스템은 고품질 결과를 효율적으로 생성함으로써 개인화된 레이블을 생성하기 위한 비용이 많이 드는 오프라인 등록의 필요성을 없앱니다. 상용 헤드셋에서의 광범위한 실험을 통해 우리의 접근 방식의 정확성과 효율성을 검증하며, 직접 회귀 방법 및 오프라인 등록 대비 상당한 개선을 입증했습니다.
English
Virtual Reality (VR) bares promise of social interactions that can feel more
immersive than other media. Key to this is the ability to accurately animate a
photorealistic avatar of one's likeness while wearing a VR headset. Although
high quality registration of person-specific avatars to headset-mounted camera
(HMC) images is possible in an offline setting, the performance of generic
realtime models are significantly degraded. Online registration is also
challenging due to oblique camera views and differences in modality. In this
work, we first show that the domain gap between the avatar and headset-camera
images is one of the primary sources of difficulty, where a transformer-based
architecture achieves high accuracy on domain-consistent data, but degrades
when the domain-gap is re-introduced. Building on this finding, we develop a
system design that decouples the problem into two parts: 1) an iterative
refinement module that takes in-domain inputs, and 2) a generic avatar-guided
image-to-image style transfer module that is conditioned on current estimation
of expression and head pose. These two modules reinforce each other, as image
style transfer becomes easier when close-to-ground-truth examples are shown,
and better domain-gap removal helps registration. Our system produces
high-quality results efficiently, obviating the need for costly offline
registration to generate personalized labels. We validate the accuracy and
efficiency of our approach through extensive experiments on a commodity
headset, demonstrating significant improvements over direct regression methods
as well as offline registration.