IMUSIC: IMUベースの表情キャプチャ
IMUSIC: IMU-based Facial Expression Capture
February 3, 2024
著者: Youjia Wang, Yiwen Wu, Ruiqian Li, Hengan Zhou, Hongyang Lin, Yingwenqi Jiang, Yingsheng Zhu, Guanpeng Long, Jingya Wang, Lan Xu, Jingyi Yu
cs.AI
要旨
顔のモーションキャプチャと分析において、主流のソリューションは一般的に視覚的な手がかりに基づいており、プライバシーを保護できず、オクルージョンに弱いという課題があります。慣性計測ユニット(IMU)は潜在的な解決策として機能しますが、主に全身のモーションキャプチャに採用されています。本論文では、このギャップを埋めるためにIMUSICを提案します。これは、従来の視覚的ソリューションとは大きく異なる、純粋なIMU信号を使用した顔の表情キャプチャの新しいアプローチです。IMUSICの鍵となる設計は三部構成です。まず、顔のキャプチャに適したマイクロIMUを設計し、解剖学に基づいたIMU配置スキームを伴わせます。次に、多様な表情とパフォーマンスに対する豊富なIMU/視覚信号のペアを提供する新しいIMU-ARKitデータセットを提供します。このユニークなマルチモダリティは、IMUベースの顔の行動分析などの将来の方向性に大きな可能性をもたらします。さらに、IMU-ARKitを活用して、純粋なIMU信号から顔のブレンドシェイプパラメータを正確に予測する強力なベースラインアプローチを導入します。具体的には、この新しいトラッキングタスクのために、2段階のトレーニング戦略を備えたTransformer拡散モデルをカスタマイズします。IMUSICフレームワークにより、視覚的手法が失敗するシナリオでも正確な顔のキャプチャを実行し、同時にユーザーのプライバシーを保護することが可能になります。IMU構成と技術的コンポーネントの両方について広範な実験を行い、IMUSICアプローチの有効性を検証します。特に、IMUSICは、プライバシー保護を伴う顔のキャプチャ、オクルージョンに対するハイブリッドキャプチャ、視覚的な手がかりでは見えない微細な顔の動きの検出など、さまざまな潜在的な新しいアプリケーションを可能にします。私たちは、コミュニティにおける顔のキャプチャと分析の可能性をさらに豊かにするために、データセットと実装を公開する予定です。
English
For facial motion capture and analysis, the dominated solutions are generally
based on visual cues, which cannot protect privacy and are vulnerable to
occlusions. Inertial measurement units (IMUs) serve as potential rescues yet
are mainly adopted for full-body motion capture. In this paper, we propose
IMUSIC to fill the gap, a novel path for facial expression capture using purely
IMU signals, significantly distant from previous visual solutions.The key
design in our IMUSIC is a trilogy. We first design micro-IMUs to suit facial
capture, companion with an anatomy-driven IMU placement scheme. Then, we
contribute a novel IMU-ARKit dataset, which provides rich paired IMU/visual
signals for diverse facial expressions and performances. Such unique
multi-modality brings huge potential for future directions like IMU-based
facial behavior analysis. Moreover, utilizing IMU-ARKit, we introduce a strong
baseline approach to accurately predict facial blendshape parameters from
purely IMU signals. Specifically, we tailor a Transformer diffusion model with
a two-stage training strategy for this novel tracking task. The IMUSIC
framework empowers us to perform accurate facial capture in scenarios where
visual methods falter and simultaneously safeguard user privacy. We conduct
extensive experiments about both the IMU configuration and technical components
to validate the effectiveness of our IMUSIC approach. Notably, IMUSIC enables
various potential and novel applications, i.e., privacy-protecting facial
capture, hybrid capture against occlusions, or detecting minute facial
movements that are often invisible through visual cues. We will release our
dataset and implementations to enrich more possibilities of facial capture and
analysis in our community.