IMUSIC: Captura de Expressões Faciais Baseada em IMU
IMUSIC: IMU-based Facial Expression Capture
February 3, 2024
Autores: Youjia Wang, Yiwen Wu, Ruiqian Li, Hengan Zhou, Hongyang Lin, Yingwenqi Jiang, Yingsheng Zhu, Guanpeng Long, Jingya Wang, Lan Xu, Jingyi Yu
cs.AI
Resumo
Para captura e análise de movimentos faciais, as soluções predominantes geralmente são baseadas em pistas visuais, que não protegem a privacidade e são vulneráveis a oclusões. As unidades de medição inercial (IMUs) servem como potenciais resgates, mas são principalmente adotadas para captura de movimentos corporais completos. Neste artigo, propomos o IMUSIC para preencher essa lacuna, um novo caminho para captura de expressões faciais utilizando exclusivamente sinais de IMU, significativamente distante das soluções visuais anteriores. O design-chave em nosso IMUSIC é uma trilogia. Primeiro, projetamos micro-IMUs adequadas para captura facial, acompanhadas de um esquema de posicionamento de IMU orientado pela anatomia. Em seguida, contribuímos com um novo conjunto de dados IMU-ARKit, que fornece sinais pareados ricos de IMU/visuais para diversas expressões e performances faciais. Essa multimodalidade única traz um enorme potencial para direções futuras, como análise de comportamento facial baseada em IMU. Além disso, utilizando o IMU-ARKit, introduzimos uma abordagem de linha de base robusta para prever com precisão os parâmetros de blendshapes faciais a partir de sinais puramente de IMU. Especificamente, adaptamos um modelo de difusão Transformer com uma estratégia de treinamento em duas etapas para essa nova tarefa de rastreamento. O framework IMUSIC nos capacita a realizar captura facial precisa em cenários onde os métodos visuais falham e, simultaneamente, protege a privacidade do usuário. Realizamos extensos experimentos tanto sobre a configuração da IMU quanto sobre os componentes técnicos para validar a eficácia de nossa abordagem IMUSIC. Notavelmente, o IMUSIC possibilita várias aplicações potenciais e inovadoras, como captura facial com proteção de privacidade, captura híbrida contra oclusões ou detecção de movimentos faciais mínimos que muitas vezes são invisíveis através de pistas visuais. Disponibilizaremos nosso conjunto de dados e implementações para enriquecer mais possibilidades de captura e análise facial em nossa comunidade.
English
For facial motion capture and analysis, the dominated solutions are generally
based on visual cues, which cannot protect privacy and are vulnerable to
occlusions. Inertial measurement units (IMUs) serve as potential rescues yet
are mainly adopted for full-body motion capture. In this paper, we propose
IMUSIC to fill the gap, a novel path for facial expression capture using purely
IMU signals, significantly distant from previous visual solutions.The key
design in our IMUSIC is a trilogy. We first design micro-IMUs to suit facial
capture, companion with an anatomy-driven IMU placement scheme. Then, we
contribute a novel IMU-ARKit dataset, which provides rich paired IMU/visual
signals for diverse facial expressions and performances. Such unique
multi-modality brings huge potential for future directions like IMU-based
facial behavior analysis. Moreover, utilizing IMU-ARKit, we introduce a strong
baseline approach to accurately predict facial blendshape parameters from
purely IMU signals. Specifically, we tailor a Transformer diffusion model with
a two-stage training strategy for this novel tracking task. The IMUSIC
framework empowers us to perform accurate facial capture in scenarios where
visual methods falter and simultaneously safeguard user privacy. We conduct
extensive experiments about both the IMU configuration and technical components
to validate the effectiveness of our IMUSIC approach. Notably, IMUSIC enables
various potential and novel applications, i.e., privacy-protecting facial
capture, hybrid capture against occlusions, or detecting minute facial
movements that are often invisible through visual cues. We will release our
dataset and implementations to enrich more possibilities of facial capture and
analysis in our community.