ChatPaper.aiChatPaper

Schnelle Registrierung fotorealistischer Avatare für VR-Gesichtsanimation

Fast Registration of Photorealistic Avatars for VR Facial Animation

January 19, 2024
Autoren: Chaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei
cs.AI

Zusammenfassung

Virtual Reality (VR) verspricht soziale Interaktionen, die immersiver wirken können als andere Medien. Entscheidend hierfür ist die Fähigkeit, ein fotorealistisches Avatar-Abbild der eigenen Person präzise zu animieren, während man ein VR-Headset trägt. Obwohl eine hochwertige Registrierung personenspezifischer Avatare zu den Bildern einer am Headset montierten Kamera (HMC) in einer Offline-Umgebung möglich ist, verschlechtert sich die Leistung generischer Echtzeitmodelle erheblich. Die Online-Registrierung ist aufgrund schräger Kameraperspektiven und Unterschiede in der Modalität ebenfalls herausfordernd. In dieser Arbeit zeigen wir zunächst, dass die Domänenlücke zwischen dem Avatar und den Headset-Kamerabildern eine der Hauptschwierigkeiten darstellt, wobei eine Transformer-basierte Architektur bei domänenkonsistenten Daten hohe Genauigkeit erreicht, jedoch abbaut, wenn die Domänenlücke wieder eingeführt wird. Aufbauend auf dieser Erkenntnis entwickeln wir ein Systemdesign, das das Problem in zwei Teile entkoppelt: 1) ein iteratives Verfeinerungsmodul, das domäneninterne Eingaben verarbeitet, und 2) ein generisches Avatar-gesteuertes Bild-zu-Bild-Styletransfermodul, das auf der aktuellen Schätzung von Gesichtsausdruck und Kopfpose basiert. Diese beiden Module verstärken sich gegenseitig, da der Bildstiltransfer einfacher wird, wenn nahezu echte Beispiele gezeigt werden, und eine bessere Beseitigung der Domänenlücke die Registrierung unterstützt. Unser System erzeugt effizient hochwertige Ergebnisse und macht die kostspielige Offline-Registrierung zur Erzeugung personalisierter Labels überflüssig. Wir validieren die Genauigkeit und Effizienz unseres Ansatzes durch umfangreiche Experimente auf einem handelsüblichen Headset und zeigen signifikante Verbesserungen gegenüber direkten Regressionsmethoden sowie der Offline-Registrierung.
English
Virtual Reality (VR) bares promise of social interactions that can feel more immersive than other media. Key to this is the ability to accurately animate a photorealistic avatar of one's likeness while wearing a VR headset. Although high quality registration of person-specific avatars to headset-mounted camera (HMC) images is possible in an offline setting, the performance of generic realtime models are significantly degraded. Online registration is also challenging due to oblique camera views and differences in modality. In this work, we first show that the domain gap between the avatar and headset-camera images is one of the primary sources of difficulty, where a transformer-based architecture achieves high accuracy on domain-consistent data, but degrades when the domain-gap is re-introduced. Building on this finding, we develop a system design that decouples the problem into two parts: 1) an iterative refinement module that takes in-domain inputs, and 2) a generic avatar-guided image-to-image style transfer module that is conditioned on current estimation of expression and head pose. These two modules reinforce each other, as image style transfer becomes easier when close-to-ground-truth examples are shown, and better domain-gap removal helps registration. Our system produces high-quality results efficiently, obviating the need for costly offline registration to generate personalized labels. We validate the accuracy and efficiency of our approach through extensive experiments on a commodity headset, demonstrating significant improvements over direct regression methods as well as offline registration.
PDF21December 15, 2024