Schnelle Registrierung fotorealistischer Avatare für VR-Gesichtsanimation
Fast Registration of Photorealistic Avatars for VR Facial Animation
January 19, 2024
Autoren: Chaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei
cs.AI
Zusammenfassung
Virtual Reality (VR) verspricht soziale Interaktionen, die immersiver wirken können als andere Medien. Entscheidend hierfür ist die Fähigkeit, ein fotorealistisches Avatar-Abbild der eigenen Person präzise zu animieren, während man ein VR-Headset trägt. Obwohl eine hochwertige Registrierung personenspezifischer Avatare zu den Bildern einer am Headset montierten Kamera (HMC) in einer Offline-Umgebung möglich ist, verschlechtert sich die Leistung generischer Echtzeitmodelle erheblich. Die Online-Registrierung ist aufgrund schräger Kameraperspektiven und Unterschiede in der Modalität ebenfalls herausfordernd. In dieser Arbeit zeigen wir zunächst, dass die Domänenlücke zwischen dem Avatar und den Headset-Kamerabildern eine der Hauptschwierigkeiten darstellt, wobei eine Transformer-basierte Architektur bei domänenkonsistenten Daten hohe Genauigkeit erreicht, jedoch abbaut, wenn die Domänenlücke wieder eingeführt wird. Aufbauend auf dieser Erkenntnis entwickeln wir ein Systemdesign, das das Problem in zwei Teile entkoppelt: 1) ein iteratives Verfeinerungsmodul, das domäneninterne Eingaben verarbeitet, und 2) ein generisches Avatar-gesteuertes Bild-zu-Bild-Styletransfermodul, das auf der aktuellen Schätzung von Gesichtsausdruck und Kopfpose basiert. Diese beiden Module verstärken sich gegenseitig, da der Bildstiltransfer einfacher wird, wenn nahezu echte Beispiele gezeigt werden, und eine bessere Beseitigung der Domänenlücke die Registrierung unterstützt. Unser System erzeugt effizient hochwertige Ergebnisse und macht die kostspielige Offline-Registrierung zur Erzeugung personalisierter Labels überflüssig. Wir validieren die Genauigkeit und Effizienz unseres Ansatzes durch umfangreiche Experimente auf einem handelsüblichen Headset und zeigen signifikante Verbesserungen gegenüber direkten Regressionsmethoden sowie der Offline-Registrierung.
English
Virtual Reality (VR) bares promise of social interactions that can feel more
immersive than other media. Key to this is the ability to accurately animate a
photorealistic avatar of one's likeness while wearing a VR headset. Although
high quality registration of person-specific avatars to headset-mounted camera
(HMC) images is possible in an offline setting, the performance of generic
realtime models are significantly degraded. Online registration is also
challenging due to oblique camera views and differences in modality. In this
work, we first show that the domain gap between the avatar and headset-camera
images is one of the primary sources of difficulty, where a transformer-based
architecture achieves high accuracy on domain-consistent data, but degrades
when the domain-gap is re-introduced. Building on this finding, we develop a
system design that decouples the problem into two parts: 1) an iterative
refinement module that takes in-domain inputs, and 2) a generic avatar-guided
image-to-image style transfer module that is conditioned on current estimation
of expression and head pose. These two modules reinforce each other, as image
style transfer becomes easier when close-to-ground-truth examples are shown,
and better domain-gap removal helps registration. Our system produces
high-quality results efficiently, obviating the need for costly offline
registration to generate personalized labels. We validate the accuracy and
efficiency of our approach through extensive experiments on a commodity
headset, demonstrating significant improvements over direct regression methods
as well as offline registration.