IMUSIC: IMU 기반 표정 캡처
IMUSIC: IMU-based Facial Expression Capture
February 3, 2024
저자: Youjia Wang, Yiwen Wu, Ruiqian Li, Hengan Zhou, Hongyang Lin, Yingwenqi Jiang, Yingsheng Zhu, Guanpeng Long, Jingya Wang, Lan Xu, Jingyi Yu
cs.AI
초록
얼굴 모션 캡처 및 분석을 위해 주로 사용되는 솔루션은 일반적으로 시각적 단서에 기반하며, 이는 개인정보 보호를 보장할 수 없고 가려짐에 취약합니다. 관성 측정 장치(IMU)는 잠재적인 해결책으로 작용하지만, 주로 전신 모션 캡처에 사용됩니다. 본 논문에서는 이러한 격차를 메우기 위해 순수 IMU 신호를 사용한 얼굴 표정 캡처의 새로운 방법인 IMUSIC을 제안합니다. 이는 기존의 시각적 솔루션과는 크게 다른 접근법입니다. IMUSIC의 핵심 설계는 삼부작으로 구성됩니다. 먼저, 얼굴 캡처에 적합한 마이크로 IMU를 설계하고, 해부학적으로 유도된 IMU 배치 방식을 제안합니다. 다음으로, 다양한 얼굴 표정과 연기에 대한 풍부한 IMU/시각적 신호 쌍을 제공하는 새로운 IMU-ARKit 데이터셋을 구축합니다. 이러한 독특한 다중 모달리티는 IMU 기반 얼굴 행동 분석과 같은 미래 방향에 큰 잠재력을 제공합니다. 또한, IMU-ARKit를 활용하여 순수 IMU 신호로부터 얼굴 블렌드셰이프 매개변수를 정확하게 예측하는 강력한 베이스라인 접근법을 소개합니다. 구체적으로, 이 새로운 추적 작업을 위해 두 단계의 훈련 전략을 가진 Transformer 확산 모델을 맞춤화합니다. IMUSIC 프레임워크는 시각적 방법이 실패하는 시나리오에서도 정확한 얼굴 캡처를 수행할 수 있게 하며 동시에 사용자 개인정보를 보호합니다. IMU 구성 및 기술 구성 요소에 대한 광범위한 실험을 통해 IMUSIC 접근법의 효과를 검증합니다. 특히, IMUSIC은 개인정보 보호 얼굴 캡처, 가려짐에 대한 하이브리드 캡처, 시각적 단서로는 보이지 않는 미세한 얼굴 움직임 감지 등 다양한 잠재적이고 새로운 응용 프로그램을 가능하게 합니다. 우리는 데이터셋과 구현을 공개하여 커뮤니티 내에서 얼굴 캡처 및 분석의 가능성을 더욱 풍부하게 할 것입니다.
English
For facial motion capture and analysis, the dominated solutions are generally
based on visual cues, which cannot protect privacy and are vulnerable to
occlusions. Inertial measurement units (IMUs) serve as potential rescues yet
are mainly adopted for full-body motion capture. In this paper, we propose
IMUSIC to fill the gap, a novel path for facial expression capture using purely
IMU signals, significantly distant from previous visual solutions.The key
design in our IMUSIC is a trilogy. We first design micro-IMUs to suit facial
capture, companion with an anatomy-driven IMU placement scheme. Then, we
contribute a novel IMU-ARKit dataset, which provides rich paired IMU/visual
signals for diverse facial expressions and performances. Such unique
multi-modality brings huge potential for future directions like IMU-based
facial behavior analysis. Moreover, utilizing IMU-ARKit, we introduce a strong
baseline approach to accurately predict facial blendshape parameters from
purely IMU signals. Specifically, we tailor a Transformer diffusion model with
a two-stage training strategy for this novel tracking task. The IMUSIC
framework empowers us to perform accurate facial capture in scenarios where
visual methods falter and simultaneously safeguard user privacy. We conduct
extensive experiments about both the IMU configuration and technical components
to validate the effectiveness of our IMUSIC approach. Notably, IMUSIC enables
various potential and novel applications, i.e., privacy-protecting facial
capture, hybrid capture against occlusions, or detecting minute facial
movements that are often invisible through visual cues. We will release our
dataset and implementations to enrich more possibilities of facial capture and
analysis in our community.