IMUSIC: Captura de Expresiones Faciales Basada en IMU
IMUSIC: IMU-based Facial Expression Capture
February 3, 2024
Autores: Youjia Wang, Yiwen Wu, Ruiqian Li, Hengan Zhou, Hongyang Lin, Yingwenqi Jiang, Yingsheng Zhu, Guanpeng Long, Jingya Wang, Lan Xu, Jingyi Yu
cs.AI
Resumen
Para la captura y análisis del movimiento facial, las soluciones predominantes generalmente se basan en señales visuales, las cuales no protegen la privacidad y son vulnerables a oclusiones. Las unidades de medición inercial (IMUs, por sus siglas en inglés) representan una posible solución, aunque principalmente se han adoptado para la captura de movimiento corporal completo. En este artículo, proponemos IMUSIC para llenar este vacío, un enfoque novedoso para la captura de expresiones faciales utilizando únicamente señales de IMU, significativamente distante de las soluciones visuales previas. El diseño clave en nuestro IMUSIC es una trilogía. Primero, diseñamos micro-IMUs adaptadas para la captura facial, acompañadas de un esquema de colocación de IMU basado en la anatomía. Luego, contribuimos con un nuevo conjunto de datos IMU-ARKit, que proporciona señales visuales y de IMU emparejadas para diversas expresiones y actuaciones faciales. Esta multimodalidad única ofrece un gran potencial para futuras direcciones, como el análisis del comportamiento facial basado en IMU. Además, utilizando IMU-ARKit, introducimos un enfoque de referencia sólido para predecir con precisión los parámetros de blendshape facial a partir de señales de IMU puras. Específicamente, adaptamos un modelo de difusión Transformer con una estrategia de entrenamiento en dos etapas para esta nueva tarea de seguimiento. El marco IMUSIC nos permite realizar una captura facial precisa en escenarios donde los métodos visuales fallan, al mismo tiempo que salvaguarda la privacidad del usuario. Realizamos experimentos exhaustivos tanto sobre la configuración de IMU como sobre los componentes técnicos para validar la efectividad de nuestro enfoque IMUSIC. Notablemente, IMUSIC habilita diversas aplicaciones potenciales y novedosas, como la captura facial que protege la privacidad, la captura híbrida contra oclusiones o la detección de movimientos faciales mínimos que a menudo son invisibles a través de señales visuales. Publicaremos nuestro conjunto de datos e implementaciones para enriquecer las posibilidades de captura y análisis facial en nuestra comunidad.
English
For facial motion capture and analysis, the dominated solutions are generally
based on visual cues, which cannot protect privacy and are vulnerable to
occlusions. Inertial measurement units (IMUs) serve as potential rescues yet
are mainly adopted for full-body motion capture. In this paper, we propose
IMUSIC to fill the gap, a novel path for facial expression capture using purely
IMU signals, significantly distant from previous visual solutions.The key
design in our IMUSIC is a trilogy. We first design micro-IMUs to suit facial
capture, companion with an anatomy-driven IMU placement scheme. Then, we
contribute a novel IMU-ARKit dataset, which provides rich paired IMU/visual
signals for diverse facial expressions and performances. Such unique
multi-modality brings huge potential for future directions like IMU-based
facial behavior analysis. Moreover, utilizing IMU-ARKit, we introduce a strong
baseline approach to accurately predict facial blendshape parameters from
purely IMU signals. Specifically, we tailor a Transformer diffusion model with
a two-stage training strategy for this novel tracking task. The IMUSIC
framework empowers us to perform accurate facial capture in scenarios where
visual methods falter and simultaneously safeguard user privacy. We conduct
extensive experiments about both the IMU configuration and technical components
to validate the effectiveness of our IMUSIC approach. Notably, IMUSIC enables
various potential and novel applications, i.e., privacy-protecting facial
capture, hybrid capture against occlusions, or detecting minute facial
movements that are often invisible through visual cues. We will release our
dataset and implementations to enrich more possibilities of facial capture and
analysis in our community.