ChatPaper.aiChatPaper

IMUSIC: IMUベースの表情キャプチャ

IMUSIC: IMU-based Facial Expression Capture

February 3, 2024
著者: Youjia Wang, Yiwen Wu, Ruiqian Li, Hengan Zhou, Hongyang Lin, Yingwenqi Jiang, Yingsheng Zhu, Guanpeng Long, Jingya Wang, Lan Xu, Jingyi Yu
cs.AI

要旨

顔のモーションキャプチャと分析において、主流のソリューションは一般的に視覚的な手がかりに基づいており、プライバシーを保護できず、オクルージョンに弱いという課題があります。慣性計測ユニット(IMU)は潜在的な解決策として機能しますが、主に全身のモーションキャプチャに採用されています。本論文では、このギャップを埋めるためにIMUSICを提案します。これは、従来の視覚的ソリューションとは大きく異なる、純粋なIMU信号を使用した顔の表情キャプチャの新しいアプローチです。IMUSICの鍵となる設計は三部構成です。まず、顔のキャプチャに適したマイクロIMUを設計し、解剖学に基づいたIMU配置スキームを伴わせます。次に、多様な表情とパフォーマンスに対する豊富なIMU/視覚信号のペアを提供する新しいIMU-ARKitデータセットを提供します。このユニークなマルチモダリティは、IMUベースの顔の行動分析などの将来の方向性に大きな可能性をもたらします。さらに、IMU-ARKitを活用して、純粋なIMU信号から顔のブレンドシェイプパラメータを正確に予測する強力なベースラインアプローチを導入します。具体的には、この新しいトラッキングタスクのために、2段階のトレーニング戦略を備えたTransformer拡散モデルをカスタマイズします。IMUSICフレームワークにより、視覚的手法が失敗するシナリオでも正確な顔のキャプチャを実行し、同時にユーザーのプライバシーを保護することが可能になります。IMU構成と技術的コンポーネントの両方について広範な実験を行い、IMUSICアプローチの有効性を検証します。特に、IMUSICは、プライバシー保護を伴う顔のキャプチャ、オクルージョンに対するハイブリッドキャプチャ、視覚的な手がかりでは見えない微細な顔の動きの検出など、さまざまな潜在的な新しいアプリケーションを可能にします。私たちは、コミュニティにおける顔のキャプチャと分析の可能性をさらに豊かにするために、データセットと実装を公開する予定です。
English
For facial motion capture and analysis, the dominated solutions are generally based on visual cues, which cannot protect privacy and are vulnerable to occlusions. Inertial measurement units (IMUs) serve as potential rescues yet are mainly adopted for full-body motion capture. In this paper, we propose IMUSIC to fill the gap, a novel path for facial expression capture using purely IMU signals, significantly distant from previous visual solutions.The key design in our IMUSIC is a trilogy. We first design micro-IMUs to suit facial capture, companion with an anatomy-driven IMU placement scheme. Then, we contribute a novel IMU-ARKit dataset, which provides rich paired IMU/visual signals for diverse facial expressions and performances. Such unique multi-modality brings huge potential for future directions like IMU-based facial behavior analysis. Moreover, utilizing IMU-ARKit, we introduce a strong baseline approach to accurately predict facial blendshape parameters from purely IMU signals. Specifically, we tailor a Transformer diffusion model with a two-stage training strategy for this novel tracking task. The IMUSIC framework empowers us to perform accurate facial capture in scenarios where visual methods falter and simultaneously safeguard user privacy. We conduct extensive experiments about both the IMU configuration and technical components to validate the effectiveness of our IMUSIC approach. Notably, IMUSIC enables various potential and novel applications, i.e., privacy-protecting facial capture, hybrid capture against occlusions, or detecting minute facial movements that are often invisible through visual cues. We will release our dataset and implementations to enrich more possibilities of facial capture and analysis in our community.
PDF91December 15, 2024