IMUSIC: Захват мимики лица на основе IMU

Аннотация

Для захвата и анализа мимики лица доминирующие решения обычно основаны на визуальных сигналах, что не обеспечивает защиту конфиденциальности и уязвимо к окклюзиям. Инерциальные измерительные модули (IMU) представляют собой потенциальное решение, однако они в основном используются для захвата движений всего тела. В данной статье мы предлагаем IMUSIC, чтобы заполнить этот пробел, — новый подход к захвату мимики лица с использованием исключительно сигналов IMU, значительно отличающийся от предыдущих визуальных решений. Ключевой элемент нашего IMUSIC состоит из трилогии. Сначала мы разрабатываем микро-IMU, адаптированные для захвата мимики, в сочетании со схемой размещения IMU, основанной на анатомии. Затем мы представляем новый набор данных IMU-ARKit, который предоставляет богатые парные сигналы IMU и визуальные данные для различных выражений лица и их проявлений. Такая уникальная многомодальность открывает огромный потенциал для будущих направлений, таких как анализ мимики на основе IMU. Более того, используя IMU-ARKit, мы предлагаем надежный базовый подход для точного предсказания параметров блендшейпов лица исключительно по сигналам IMU. В частности, мы адаптируем модель Transformer с диффузией и двухэтапной стратегией обучения для этой новой задачи отслеживания. Фреймворк IMUSIC позволяет нам выполнять точный захват мимики в сценариях, где визуальные методы терпят неудачу, одновременно обеспечивая защиту конфиденциальности пользователя. Мы проводим обширные эксперименты как с конфигурацией IMU, так и с техническими компонентами, чтобы подтвердить эффективность нашего подхода IMUSIC. Примечательно, что IMUSIC открывает различные потенциальные и новые приложения, такие как захват мимики с защитой конфиденциальности, гибридный захват для борьбы с окклюзиями или обнаружение малозаметных движений лица, которые часто не видны через визуальные сигналы. Мы опубликуем наш набор данных и реализации, чтобы расширить возможности захвата и анализа мимики в нашем сообществе.

English

For facial motion capture and analysis, the dominated solutions are generally based on visual cues, which cannot protect privacy and are vulnerable to occlusions. Inertial measurement units (IMUs) serve as potential rescues yet are mainly adopted for full-body motion capture. In this paper, we propose IMUSIC to fill the gap, a novel path for facial expression capture using purely IMU signals, significantly distant from previous visual solutions.The key design in our IMUSIC is a trilogy. We first design micro-IMUs to suit facial capture, companion with an anatomy-driven IMU placement scheme. Then, we contribute a novel IMU-ARKit dataset, which provides rich paired IMU/visual signals for diverse facial expressions and performances. Such unique multi-modality brings huge potential for future directions like IMU-based facial behavior analysis. Moreover, utilizing IMU-ARKit, we introduce a strong baseline approach to accurately predict facial blendshape parameters from purely IMU signals. Specifically, we tailor a Transformer diffusion model with a two-stage training strategy for this novel tracking task. The IMUSIC framework empowers us to perform accurate facial capture in scenarios where visual methods falter and simultaneously safeguard user privacy. We conduct extensive experiments about both the IMU configuration and technical components to validate the effectiveness of our IMUSIC approach. Notably, IMUSIC enables various potential and novel applications, i.e., privacy-protecting facial capture, hybrid capture against occlusions, or detecting minute facial movements that are often invisible through visual cues. We will release our dataset and implementations to enrich more possibilities of facial capture and analysis in our community.

IMUSIC: Захват мимики лица на основе IMU

IMUSIC: IMU-based Facial Expression Capture

Аннотация

Support