IMUSIC: Cattura delle espressioni facciali basata su IMU
IMUSIC: IMU-based Facial Expression Capture
February 3, 2024
Autori: Youjia Wang, Yiwen Wu, Ruiqian Li, Hengan Zhou, Hongyang Lin, Yingwenqi Jiang, Yingsheng Zhu, Guanpeng Long, Jingya Wang, Lan Xu, Jingyi Yu
cs.AI
Abstract
Per la cattura e l'analisi del movimento facciale, le soluzioni predominanti si basano generalmente su segnali visivi, che non possono proteggere la privacy e sono vulnerabili alle occlusioni. Le unità di misura inerziale (IMU) rappresentano un potenziale rimedio, ma sono principalmente adottate per la cattura del movimento corporeo completo. In questo articolo, proponiamo IMUSIC per colmare questa lacuna, un nuovo approccio per la cattura delle espressioni facciali utilizzando esclusivamente segnali IMU, significativamente distante dalle precedenti soluzioni visive. Il design chiave del nostro IMUSIC si basa su una trilogia. In primo luogo, progettiamo micro-IMU adatte alla cattura facciale, accompagnate da uno schema di posizionamento delle IMU guidato dall'anatomia. Successivamente, contribuiamo con un nuovo dataset IMU-ARKit, che fornisce ricchi segnali accoppiati IMU/visivi per diverse espressioni e performance facciali. Tale unicità multimodale offre un enorme potenziale per future direzioni come l'analisi del comportamento facciale basata su IMU. Inoltre, utilizzando IMU-ARKit, introduciamo un solido approccio di base per prevedere accuratamente i parametri dei blendshape facciali da segnali IMU puri. Nello specifico, adattiamo un modello Transformer diffusion con una strategia di addestramento in due fasi per questo nuovo compito di tracciamento. Il framework IMUSIC ci consente di eseguire una cattura facciale accurata in scenari in cui i metodi visivi falliscono e, allo stesso tempo, salvaguardare la privacy dell'utente. Condividiamo esperimenti estesi sia sulla configurazione delle IMU che sui componenti tecnici per validare l'efficacia del nostro approccio IMUSIC. In particolare, IMUSIC abilita varie potenziali e nuove applicazioni, come la cattura facciale che protegge la privacy, la cattura ibrida contro le occlusioni o il rilevamento di minuscoli movimenti facciali spesso invisibili attraverso segnali visivi. Rilasceremo il nostro dataset e le implementazioni per arricchire ulteriori possibilità di cattura e analisi facciale nella nostra comunità.
English
For facial motion capture and analysis, the dominated solutions are generally
based on visual cues, which cannot protect privacy and are vulnerable to
occlusions. Inertial measurement units (IMUs) serve as potential rescues yet
are mainly adopted for full-body motion capture. In this paper, we propose
IMUSIC to fill the gap, a novel path for facial expression capture using purely
IMU signals, significantly distant from previous visual solutions.The key
design in our IMUSIC is a trilogy. We first design micro-IMUs to suit facial
capture, companion with an anatomy-driven IMU placement scheme. Then, we
contribute a novel IMU-ARKit dataset, which provides rich paired IMU/visual
signals for diverse facial expressions and performances. Such unique
multi-modality brings huge potential for future directions like IMU-based
facial behavior analysis. Moreover, utilizing IMU-ARKit, we introduce a strong
baseline approach to accurately predict facial blendshape parameters from
purely IMU signals. Specifically, we tailor a Transformer diffusion model with
a two-stage training strategy for this novel tracking task. The IMUSIC
framework empowers us to perform accurate facial capture in scenarios where
visual methods falter and simultaneously safeguard user privacy. We conduct
extensive experiments about both the IMU configuration and technical components
to validate the effectiveness of our IMUSIC approach. Notably, IMUSIC enables
various potential and novel applications, i.e., privacy-protecting facial
capture, hybrid capture against occlusions, or detecting minute facial
movements that are often invisible through visual cues. We will release our
dataset and implementations to enrich more possibilities of facial capture and
analysis in our community.