ChatPaper.aiChatPaper

IMUSIC: IMU-basierte Erfassung von Gesichtsausdrücken

IMUSIC: IMU-based Facial Expression Capture

February 3, 2024
Autoren: Youjia Wang, Yiwen Wu, Ruiqian Li, Hengan Zhou, Hongyang Lin, Yingwenqi Jiang, Yingsheng Zhu, Guanpeng Long, Jingya Wang, Lan Xu, Jingyi Yu
cs.AI

Zusammenfassung

Für die Erfassung und Analyse von Gesichtsbewegungen dominieren in der Regel Lösungen, die auf visuellen Hinweisen basieren. Diese können jedoch die Privatsphäre nicht schützen und sind anfällig für Verdeckungen. Inertiale Messeinheiten (IMUs) bieten potenzielle Rettungsmöglichkeiten, werden jedoch hauptsächlich für die Erfassung von Ganzkörperbewegungen eingesetzt. In diesem Artikel schlagen wir IMUSIC vor, um diese Lücke zu schließen – einen neuartigen Ansatz zur Erfassung von Gesichtsausdrücken ausschließlich mithilfe von IMU-Signalen, der sich deutlich von bisherigen visuellen Lösungen unterscheidet. Der Schlüsselentwurf in unserem IMUSIC besteht aus einer Trilogie. Zunächst entwerfen wir Mikro-IMUs, die für die Gesichtserfassung geeignet sind, begleitet von einem anatomiegesteuerten IMU-Platzierungsschema. Dann stellen wir einen neuartigen IMU-ARKit-Datensatz bereit, der umfangreiche gepaarte IMU/visuelle Signale für verschiedene Gesichtsausdrücke und -performances bietet. Diese einzigartige Multimodalität birgt ein enormes Potenzial für zukünftige Richtungen wie die IMU-basierte Analyse von Gesichtsverhalten. Darüber hinaus führen wir mithilfe von IMU-ARKit einen robusten Baseline-Ansatz ein, um Gesichts-Blendshape-Parameter präzise aus reinen IMU-Signalen vorherzusagen. Insbesondere passen wir ein Transformer-Diffusionsmodell mit einer zweistufigen Trainingsstrategie für diese neuartige Tracking-Aufgabe an. Das IMUSIC-Framework ermöglicht es uns, präzise Gesichtserfassungen in Szenarien durchzuführen, in denen visuelle Methoden versagen, und gleichzeitig die Privatsphäre der Nutzer zu schützen. Wir führen umfangreiche Experimente sowohl zur IMU-Konfiguration als auch zu den technischen Komponenten durch, um die Wirksamkeit unseres IMUSIC-Ansatzes zu validieren. Insbesondere ermöglicht IMUSIC verschiedene potenzielle und neuartige Anwendungen, wie z.B. die privatsphäreschützende Gesichtserfassung, die hybride Erfassung gegen Verdeckungen oder die Erkennung minimaler Gesichtsbewegungen, die oft durch visuelle Hinweise unsichtbar sind. Wir werden unseren Datensatz und unsere Implementierungen veröffentlichen, um die Möglichkeiten der Gesichtserfassung und -analyse in unserer Gemeinschaft zu bereichern.
English
For facial motion capture and analysis, the dominated solutions are generally based on visual cues, which cannot protect privacy and are vulnerable to occlusions. Inertial measurement units (IMUs) serve as potential rescues yet are mainly adopted for full-body motion capture. In this paper, we propose IMUSIC to fill the gap, a novel path for facial expression capture using purely IMU signals, significantly distant from previous visual solutions.The key design in our IMUSIC is a trilogy. We first design micro-IMUs to suit facial capture, companion with an anatomy-driven IMU placement scheme. Then, we contribute a novel IMU-ARKit dataset, which provides rich paired IMU/visual signals for diverse facial expressions and performances. Such unique multi-modality brings huge potential for future directions like IMU-based facial behavior analysis. Moreover, utilizing IMU-ARKit, we introduce a strong baseline approach to accurately predict facial blendshape parameters from purely IMU signals. Specifically, we tailor a Transformer diffusion model with a two-stage training strategy for this novel tracking task. The IMUSIC framework empowers us to perform accurate facial capture in scenarios where visual methods falter and simultaneously safeguard user privacy. We conduct extensive experiments about both the IMU configuration and technical components to validate the effectiveness of our IMUSIC approach. Notably, IMUSIC enables various potential and novel applications, i.e., privacy-protecting facial capture, hybrid capture against occlusions, or detecting minute facial movements that are often invisible through visual cues. We will release our dataset and implementations to enrich more possibilities of facial capture and analysis in our community.
PDF91December 15, 2024