Snelle registratie van fotorealistische avatars voor VR-gezichtsanimatie
Fast Registration of Photorealistic Avatars for VR Facial Animation
January 19, 2024
Auteurs: Chaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei
cs.AI
Samenvatting
Virtual Reality (VR) biedt de belofte van sociale interacties die meer meeslepend kunnen aanvoelen dan andere media. Een sleutelfactor hierbij is het vermogen om een fotorealistische avatar van iemands gelijkenis nauwkeurig te animeren terwijl een VR-headset wordt gedragen. Hoewel hoogwaardige registratie van persoon-specifieke avatars aan beelden van een headset-gemonteerde camera (HMC) mogelijk is in een offline omgeving, is de prestaties van generische realtime modellen aanzienlijk verminderd. Online registratie is ook uitdagend vanwege schuine camerabeelden en verschillen in modaliteit. In dit werk tonen we eerst aan dat de domeinkloof tussen de avatar en de headset-camerabeelden een van de belangrijkste bronnen van moeilijkheden is, waarbij een transformer-gebaseerde architectuur een hoge nauwkeurigheid bereikt op domein-consistente data, maar verslechtert wanneer de domeinkloof opnieuw wordt geïntroduceerd. Op basis van deze bevinding ontwikkelen we een systeemontwerp dat het probleem ontkoppelt in twee delen: 1) een iteratief verfijningsmodule die in-domein inputs verwerkt, en 2) een generieke avatar-gestuurde image-to-image stijltransfermodule die wordt geconditioneerd op de huidige schatting van expressie en hoofdpositie. Deze twee modules versterken elkaar, aangezien beeldstijltransfer eenvoudiger wordt wanneer voorbeelden dicht bij de grondwaarde worden getoond, en betere verwijdering van de domeinkloop helpt bij de registratie. Ons systeem produceert efficiënt hoogwaardige resultaten, waardoor de noodzaak voor kostbare offline registratie om gepersonaliseerde labels te genereren wordt weggenomen. We valideren de nauwkeurigheid en efficiëntie van onze aanpak door uitgebreide experimenten op een consumentenheadset, waarbij we aanzienlijke verbeteringen aantonen ten opzichte van directe regressiemethoden en offline registratie.
English
Virtual Reality (VR) bares promise of social interactions that can feel more
immersive than other media. Key to this is the ability to accurately animate a
photorealistic avatar of one's likeness while wearing a VR headset. Although
high quality registration of person-specific avatars to headset-mounted camera
(HMC) images is possible in an offline setting, the performance of generic
realtime models are significantly degraded. Online registration is also
challenging due to oblique camera views and differences in modality. In this
work, we first show that the domain gap between the avatar and headset-camera
images is one of the primary sources of difficulty, where a transformer-based
architecture achieves high accuracy on domain-consistent data, but degrades
when the domain-gap is re-introduced. Building on this finding, we develop a
system design that decouples the problem into two parts: 1) an iterative
refinement module that takes in-domain inputs, and 2) a generic avatar-guided
image-to-image style transfer module that is conditioned on current estimation
of expression and head pose. These two modules reinforce each other, as image
style transfer becomes easier when close-to-ground-truth examples are shown,
and better domain-gap removal helps registration. Our system produces
high-quality results efficiently, obviating the need for costly offline
registration to generate personalized labels. We validate the accuracy and
efficiency of our approach through extensive experiments on a commodity
headset, demonstrating significant improvements over direct regression methods
as well as offline registration.