IMUSIC: IMU-gestuurde vastlegging van gezichtsuitdrukkingen
IMUSIC: IMU-based Facial Expression Capture
February 3, 2024
Auteurs: Youjia Wang, Yiwen Wu, Ruiqian Li, Hengan Zhou, Hongyang Lin, Yingwenqi Jiang, Yingsheng Zhu, Guanpeng Long, Jingya Wang, Lan Xu, Jingyi Yu
cs.AI
Samenvatting
Voor gezichtsbewegingscapture en -analyse zijn de dominante oplossingen over het algemeen gebaseerd op visuele signalen, die de privacy niet kunnen beschermen en gevoelig zijn voor occlusies. Inertial measurement units (IMU's) bieden een mogelijke uitkomst, maar worden voornamelijk gebruikt voor volledige lichaamsbewegingscapture. In dit artikel stellen we IMUSIC voor om deze leemte op te vullen, een nieuwe aanpak voor het vastleggen van gezichtsuitdrukkingen met uitsluitend IMU-signalen, wat een aanzienlijke afstand neemt tot eerdere visuele oplossingen. De kern van ons IMUSIC-ontwerp bestaat uit een trilogie. Eerst ontwerpen we micro-IMU's die geschikt zijn voor gezichtscapture, vergezeld van een anatomie-gestuurd IMU-placeringsschema. Vervolgens dragen we bij met een nieuw IMU-ARKit-dataset, die rijke gepaarde IMU/visuele signalen biedt voor diverse gezichtsuitdrukkingen en prestaties. Deze unieke multimodaliteit biedt enorm veel potentieel voor toekomstige richtingen, zoals IMU-gebaseerde analyse van gezichtsgedrag. Bovendien introduceren we, gebruikmakend van IMU-ARKit, een sterke baseline-aanpak om gezichts-blendshape-parameters nauwkeurig te voorspellen uit uitsluitend IMU-signalen. Specifiek passen we een Transformer-diffusiemodel aan met een tweefasen-trainingsstrategie voor deze nieuwe trackingtaak. Het IMUSIC-framework stelt ons in staat om nauwkeurige gezichtscapture uit te voeren in scenario's waar visuele methoden falen en tegelijkertijd de privacy van gebruikers te waarborgen. We voeren uitgebreide experimenten uit over zowel de IMU-configuratie als de technische componenten om de effectiviteit van onze IMUSIC-aanpak te valideren. Opmerkelijk is dat IMUSIC diverse potentiële en nieuwe toepassingen mogelijk maakt, zoals privacybeschermende gezichtscapture, hybride capture tegen occlusies, of het detecteren van minuscule gezichtsbewegingen die vaak onzichtbaar zijn via visuele signalen. We zullen onze dataset en implementaties vrijgeven om meer mogelijkheden voor gezichtscapture en -analyse in onze gemeenschap te verrijken.
English
For facial motion capture and analysis, the dominated solutions are generally
based on visual cues, which cannot protect privacy and are vulnerable to
occlusions. Inertial measurement units (IMUs) serve as potential rescues yet
are mainly adopted for full-body motion capture. In this paper, we propose
IMUSIC to fill the gap, a novel path for facial expression capture using purely
IMU signals, significantly distant from previous visual solutions.The key
design in our IMUSIC is a trilogy. We first design micro-IMUs to suit facial
capture, companion with an anatomy-driven IMU placement scheme. Then, we
contribute a novel IMU-ARKit dataset, which provides rich paired IMU/visual
signals for diverse facial expressions and performances. Such unique
multi-modality brings huge potential for future directions like IMU-based
facial behavior analysis. Moreover, utilizing IMU-ARKit, we introduce a strong
baseline approach to accurately predict facial blendshape parameters from
purely IMU signals. Specifically, we tailor a Transformer diffusion model with
a two-stage training strategy for this novel tracking task. The IMUSIC
framework empowers us to perform accurate facial capture in scenarios where
visual methods falter and simultaneously safeguard user privacy. We conduct
extensive experiments about both the IMU configuration and technical components
to validate the effectiveness of our IMUSIC approach. Notably, IMUSIC enables
various potential and novel applications, i.e., privacy-protecting facial
capture, hybrid capture against occlusions, or detecting minute facial
movements that are often invisible through visual cues. We will release our
dataset and implementations to enrich more possibilities of facial capture and
analysis in our community.