IMUSIC: IMU-basierte Erfassung von Gesichtsausdrücken
IMUSIC: IMU-based Facial Expression Capture
February 3, 2024
Autoren: Youjia Wang, Yiwen Wu, Ruiqian Li, Hengan Zhou, Hongyang Lin, Yingwenqi Jiang, Yingsheng Zhu, Guanpeng Long, Jingya Wang, Lan Xu, Jingyi Yu
cs.AI
Zusammenfassung
Für die Erfassung und Analyse von Gesichtsbewegungen dominieren in der Regel Lösungen, die auf visuellen Hinweisen basieren. Diese können jedoch die Privatsphäre nicht schützen und sind anfällig für Verdeckungen. Inertiale Messeinheiten (IMUs) bieten potenzielle Rettungsmöglichkeiten, werden jedoch hauptsächlich für die Erfassung von Ganzkörperbewegungen eingesetzt. In diesem Artikel schlagen wir IMUSIC vor, um diese Lücke zu schließen – einen neuartigen Ansatz zur Erfassung von Gesichtsausdrücken ausschließlich mithilfe von IMU-Signalen, der sich deutlich von bisherigen visuellen Lösungen unterscheidet. Der Schlüsselentwurf in unserem IMUSIC besteht aus einer Trilogie. Zunächst entwerfen wir Mikro-IMUs, die für die Gesichtserfassung geeignet sind, begleitet von einem anatomiegesteuerten IMU-Platzierungsschema. Dann stellen wir einen neuartigen IMU-ARKit-Datensatz bereit, der umfangreiche gepaarte IMU/visuelle Signale für verschiedene Gesichtsausdrücke und -performances bietet. Diese einzigartige Multimodalität birgt ein enormes Potenzial für zukünftige Richtungen wie die IMU-basierte Analyse von Gesichtsverhalten. Darüber hinaus führen wir mithilfe von IMU-ARKit einen robusten Baseline-Ansatz ein, um Gesichts-Blendshape-Parameter präzise aus reinen IMU-Signalen vorherzusagen. Insbesondere passen wir ein Transformer-Diffusionsmodell mit einer zweistufigen Trainingsstrategie für diese neuartige Tracking-Aufgabe an. Das IMUSIC-Framework ermöglicht es uns, präzise Gesichtserfassungen in Szenarien durchzuführen, in denen visuelle Methoden versagen, und gleichzeitig die Privatsphäre der Nutzer zu schützen. Wir führen umfangreiche Experimente sowohl zur IMU-Konfiguration als auch zu den technischen Komponenten durch, um die Wirksamkeit unseres IMUSIC-Ansatzes zu validieren. Insbesondere ermöglicht IMUSIC verschiedene potenzielle und neuartige Anwendungen, wie z.B. die privatsphäreschützende Gesichtserfassung, die hybride Erfassung gegen Verdeckungen oder die Erkennung minimaler Gesichtsbewegungen, die oft durch visuelle Hinweise unsichtbar sind. Wir werden unseren Datensatz und unsere Implementierungen veröffentlichen, um die Möglichkeiten der Gesichtserfassung und -analyse in unserer Gemeinschaft zu bereichern.
English
For facial motion capture and analysis, the dominated solutions are generally
based on visual cues, which cannot protect privacy and are vulnerable to
occlusions. Inertial measurement units (IMUs) serve as potential rescues yet
are mainly adopted for full-body motion capture. In this paper, we propose
IMUSIC to fill the gap, a novel path for facial expression capture using purely
IMU signals, significantly distant from previous visual solutions.The key
design in our IMUSIC is a trilogy. We first design micro-IMUs to suit facial
capture, companion with an anatomy-driven IMU placement scheme. Then, we
contribute a novel IMU-ARKit dataset, which provides rich paired IMU/visual
signals for diverse facial expressions and performances. Such unique
multi-modality brings huge potential for future directions like IMU-based
facial behavior analysis. Moreover, utilizing IMU-ARKit, we introduce a strong
baseline approach to accurately predict facial blendshape parameters from
purely IMU signals. Specifically, we tailor a Transformer diffusion model with
a two-stage training strategy for this novel tracking task. The IMUSIC
framework empowers us to perform accurate facial capture in scenarios where
visual methods falter and simultaneously safeguard user privacy. We conduct
extensive experiments about both the IMU configuration and technical components
to validate the effectiveness of our IMUSIC approach. Notably, IMUSIC enables
various potential and novel applications, i.e., privacy-protecting facial
capture, hybrid capture against occlusions, or detecting minute facial
movements that are often invisible through visual cues. We will release our
dataset and implementations to enrich more possibilities of facial capture and
analysis in our community.