IMUSIC: IMU-gestuurde vastlegging van gezichtsuitdrukkingen

Samenvatting

Voor gezichtsbewegingscapture en -analyse zijn de dominante oplossingen over het algemeen gebaseerd op visuele signalen, die de privacy niet kunnen beschermen en gevoelig zijn voor occlusies. Inertial measurement units (IMU's) bieden een mogelijke uitkomst, maar worden voornamelijk gebruikt voor volledige lichaamsbewegingscapture. In dit artikel stellen we IMUSIC voor om deze leemte op te vullen, een nieuwe aanpak voor het vastleggen van gezichtsuitdrukkingen met uitsluitend IMU-signalen, wat een aanzienlijke afstand neemt tot eerdere visuele oplossingen. De kern van ons IMUSIC-ontwerp bestaat uit een trilogie. Eerst ontwerpen we micro-IMU's die geschikt zijn voor gezichtscapture, vergezeld van een anatomie-gestuurd IMU-placeringsschema. Vervolgens dragen we bij met een nieuw IMU-ARKit-dataset, die rijke gepaarde IMU/visuele signalen biedt voor diverse gezichtsuitdrukkingen en prestaties. Deze unieke multimodaliteit biedt enorm veel potentieel voor toekomstige richtingen, zoals IMU-gebaseerde analyse van gezichtsgedrag. Bovendien introduceren we, gebruikmakend van IMU-ARKit, een sterke baseline-aanpak om gezichts-blendshape-parameters nauwkeurig te voorspellen uit uitsluitend IMU-signalen. Specifiek passen we een Transformer-diffusiemodel aan met een tweefasen-trainingsstrategie voor deze nieuwe trackingtaak. Het IMUSIC-framework stelt ons in staat om nauwkeurige gezichtscapture uit te voeren in scenario's waar visuele methoden falen en tegelijkertijd de privacy van gebruikers te waarborgen. We voeren uitgebreide experimenten uit over zowel de IMU-configuratie als de technische componenten om de effectiviteit van onze IMUSIC-aanpak te valideren. Opmerkelijk is dat IMUSIC diverse potentiële en nieuwe toepassingen mogelijk maakt, zoals privacybeschermende gezichtscapture, hybride capture tegen occlusies, of het detecteren van minuscule gezichtsbewegingen die vaak onzichtbaar zijn via visuele signalen. We zullen onze dataset en implementaties vrijgeven om meer mogelijkheden voor gezichtscapture en -analyse in onze gemeenschap te verrijken.

English

For facial motion capture and analysis, the dominated solutions are generally based on visual cues, which cannot protect privacy and are vulnerable to occlusions. Inertial measurement units (IMUs) serve as potential rescues yet are mainly adopted for full-body motion capture. In this paper, we propose IMUSIC to fill the gap, a novel path for facial expression capture using purely IMU signals, significantly distant from previous visual solutions.The key design in our IMUSIC is a trilogy. We first design micro-IMUs to suit facial capture, companion with an anatomy-driven IMU placement scheme. Then, we contribute a novel IMU-ARKit dataset, which provides rich paired IMU/visual signals for diverse facial expressions and performances. Such unique multi-modality brings huge potential for future directions like IMU-based facial behavior analysis. Moreover, utilizing IMU-ARKit, we introduce a strong baseline approach to accurately predict facial blendshape parameters from purely IMU signals. Specifically, we tailor a Transformer diffusion model with a two-stage training strategy for this novel tracking task. The IMUSIC framework empowers us to perform accurate facial capture in scenarios where visual methods falter and simultaneously safeguard user privacy. We conduct extensive experiments about both the IMU configuration and technical components to validate the effectiveness of our IMUSIC approach. Notably, IMUSIC enables various potential and novel applications, i.e., privacy-protecting facial capture, hybrid capture against occlusions, or detecting minute facial movements that are often invisible through visual cues. We will release our dataset and implementations to enrich more possibilities of facial capture and analysis in our community.

IMUSIC: IMU-gestuurde vastlegging van gezichtsuitdrukkingen

IMUSIC: IMU-based Facial Expression Capture

Samenvatting

Support