ChatPaper.aiChatPaper

IMUSIC : Capture d'expressions faciales basée sur IMU

IMUSIC: IMU-based Facial Expression Capture

February 3, 2024
Auteurs: Youjia Wang, Yiwen Wu, Ruiqian Li, Hengan Zhou, Hongyang Lin, Yingwenqi Jiang, Yingsheng Zhu, Guanpeng Long, Jingya Wang, Lan Xu, Jingyi Yu
cs.AI

Résumé

Pour la capture et l'analyse des mouvements faciaux, les solutions dominantes reposent généralement sur des indices visuels, qui ne protègent pas la vie privée et sont vulnérables aux occlusions. Les unités de mesure inertielles (IMU) constituent une solution potentielle, mais sont principalement utilisées pour la capture des mouvements du corps entier. Dans cet article, nous proposons IMUSIC pour combler cette lacune, une nouvelle approche pour la capture des expressions faciales utilisant uniquement des signaux IMU, s'éloignant significativement des solutions visuelles précédentes. La conception clé de notre IMUSIC repose sur une trilogie. Nous concevons d'abord des micro-IMU adaptés à la capture faciale, accompagnés d'un schéma de placement des IMU guidé par l'anatomie. Ensuite, nous contribuons avec un nouveau jeu de données IMU-ARKit, qui fournit des signaux IMU/visuels appariés pour diverses expressions et performances faciales. Cette multimodalité unique ouvre de vastes perspectives pour des directions futures comme l'analyse des comportements faciaux basée sur les IMU. De plus, en utilisant IMU-ARKit, nous introduisons une approche de référence robuste pour prédire avec précision les paramètres de blendshape faciaux à partir de signaux IMU purs. Plus précisément, nous adaptons un modèle de diffusion Transformer avec une stratégie d'entraînement en deux étapes pour cette nouvelle tâche de suivi. Le cadre IMUSIC nous permet d'effectuer une capture faciale précise dans des scénarios où les méthodes visuelles échouent, tout en protégeant la vie privée des utilisateurs. Nous menons des expériences approfondies sur la configuration des IMU et les composants techniques pour valider l'efficacité de notre approche IMUSIC. Notamment, IMUSIC permet diverses applications potentielles et novatrices, comme la capture faciale respectueuse de la vie privée, la capture hybride contre les occlusions, ou la détection de mouvements faciaux subtils souvent invisibles par les indices visuels. Nous publierons notre jeu de données et nos implémentations pour enrichir les possibilités de capture et d'analyse faciales dans notre communauté.
English
For facial motion capture and analysis, the dominated solutions are generally based on visual cues, which cannot protect privacy and are vulnerable to occlusions. Inertial measurement units (IMUs) serve as potential rescues yet are mainly adopted for full-body motion capture. In this paper, we propose IMUSIC to fill the gap, a novel path for facial expression capture using purely IMU signals, significantly distant from previous visual solutions.The key design in our IMUSIC is a trilogy. We first design micro-IMUs to suit facial capture, companion with an anatomy-driven IMU placement scheme. Then, we contribute a novel IMU-ARKit dataset, which provides rich paired IMU/visual signals for diverse facial expressions and performances. Such unique multi-modality brings huge potential for future directions like IMU-based facial behavior analysis. Moreover, utilizing IMU-ARKit, we introduce a strong baseline approach to accurately predict facial blendshape parameters from purely IMU signals. Specifically, we tailor a Transformer diffusion model with a two-stage training strategy for this novel tracking task. The IMUSIC framework empowers us to perform accurate facial capture in scenarios where visual methods falter and simultaneously safeguard user privacy. We conduct extensive experiments about both the IMU configuration and technical components to validate the effectiveness of our IMUSIC approach. Notably, IMUSIC enables various potential and novel applications, i.e., privacy-protecting facial capture, hybrid capture against occlusions, or detecting minute facial movements that are often invisible through visual cues. We will release our dataset and implementations to enrich more possibilities of facial capture and analysis in our community.
PDF91December 15, 2024