IMUSIC: Захват мимики лица на основе IMU
IMUSIC: IMU-based Facial Expression Capture
February 3, 2024
Авторы: Youjia Wang, Yiwen Wu, Ruiqian Li, Hengan Zhou, Hongyang Lin, Yingwenqi Jiang, Yingsheng Zhu, Guanpeng Long, Jingya Wang, Lan Xu, Jingyi Yu
cs.AI
Аннотация
Для захвата и анализа мимики лица доминирующие решения обычно основаны на визуальных сигналах, что не обеспечивает защиту конфиденциальности и уязвимо к окклюзиям. Инерциальные измерительные модули (IMU) представляют собой потенциальное решение, однако они в основном используются для захвата движений всего тела. В данной статье мы предлагаем IMUSIC, чтобы заполнить этот пробел, — новый подход к захвату мимики лица с использованием исключительно сигналов IMU, значительно отличающийся от предыдущих визуальных решений. Ключевой элемент нашего IMUSIC состоит из трилогии. Сначала мы разрабатываем микро-IMU, адаптированные для захвата мимики, в сочетании со схемой размещения IMU, основанной на анатомии. Затем мы представляем новый набор данных IMU-ARKit, который предоставляет богатые парные сигналы IMU и визуальные данные для различных выражений лица и их проявлений. Такая уникальная многомодальность открывает огромный потенциал для будущих направлений, таких как анализ мимики на основе IMU. Более того, используя IMU-ARKit, мы предлагаем надежный базовый подход для точного предсказания параметров блендшейпов лица исключительно по сигналам IMU. В частности, мы адаптируем модель Transformer с диффузией и двухэтапной стратегией обучения для этой новой задачи отслеживания. Фреймворк IMUSIC позволяет нам выполнять точный захват мимики в сценариях, где визуальные методы терпят неудачу, одновременно обеспечивая защиту конфиденциальности пользователя. Мы проводим обширные эксперименты как с конфигурацией IMU, так и с техническими компонентами, чтобы подтвердить эффективность нашего подхода IMUSIC. Примечательно, что IMUSIC открывает различные потенциальные и новые приложения, такие как захват мимики с защитой конфиденциальности, гибридный захват для борьбы с окклюзиями или обнаружение малозаметных движений лица, которые часто не видны через визуальные сигналы. Мы опубликуем наш набор данных и реализации, чтобы расширить возможности захвата и анализа мимики в нашем сообществе.
English
For facial motion capture and analysis, the dominated solutions are generally
based on visual cues, which cannot protect privacy and are vulnerable to
occlusions. Inertial measurement units (IMUs) serve as potential rescues yet
are mainly adopted for full-body motion capture. In this paper, we propose
IMUSIC to fill the gap, a novel path for facial expression capture using purely
IMU signals, significantly distant from previous visual solutions.The key
design in our IMUSIC is a trilogy. We first design micro-IMUs to suit facial
capture, companion with an anatomy-driven IMU placement scheme. Then, we
contribute a novel IMU-ARKit dataset, which provides rich paired IMU/visual
signals for diverse facial expressions and performances. Such unique
multi-modality brings huge potential for future directions like IMU-based
facial behavior analysis. Moreover, utilizing IMU-ARKit, we introduce a strong
baseline approach to accurately predict facial blendshape parameters from
purely IMU signals. Specifically, we tailor a Transformer diffusion model with
a two-stage training strategy for this novel tracking task. The IMUSIC
framework empowers us to perform accurate facial capture in scenarios where
visual methods falter and simultaneously safeguard user privacy. We conduct
extensive experiments about both the IMU configuration and technical components
to validate the effectiveness of our IMUSIC approach. Notably, IMUSIC enables
various potential and novel applications, i.e., privacy-protecting facial
capture, hybrid capture against occlusions, or detecting minute facial
movements that are often invisible through visual cues. We will release our
dataset and implementations to enrich more possibilities of facial capture and
analysis in our community.