MoBind: Привязка движения для точного согласования поз по данным IMU и видео

Аннотация

Мы стремимся изучить совместное представление между сигналами инерциальных измерительных модулей (IMU) и последовательностями 2D-поз, извлеченными из видео, что позволит выполнять точный кросс-модальный поиск, временную синхронизацию, локализацию субъекта и частей тела, а также распознавание действий. Для этого мы представляем MoBind — иерархическую контрастную модель обучения, разработанную для решения трех задач: (1) фильтрации нерелевантного визуального фона, (2) моделирования структурированных конфигураций многодатчиковых IMU и (3) достижения детального временного выравнивания с субсекундной точностью. Чтобы изолировать релевантные для движения сигналы, MoBind выравнивает данные IMU с последовательностями скелетных движений, а не с исходными пикселями. Мы дополнительно декомпозируем движение всего тела на траектории локальных частей тела, сопоставляя каждую с соответствующим IMU для обеспечения семантически обоснованного многодатчикового выравнивания. Для захвата детальных временных соответствий MoBind использует иерархическую контрастную стратегию, которая сначала выравнивает временные сегменты на уровне токенов, а затем объединяет локальное (для частей тела) выравнивание с глобальной (для всего тела) агрегацией движения. При оценке на наборах данных mRi, TotalCapture и EgoHumans MoBind стабильно превосходит сильные базовые линии по всем четырем задачам, демонстрируя надежное детальное временное выравнивание при сохранении грубой семантической согласованности между модальностями. Код доступен по адресу https://github.com/bbvisual/MoBind.

English

We aim to learn a joint representation between inertial measurement unit (IMU) signals and 2D pose sequences extracted from video, enabling accurate cross-modal retrieval, temporal synchronization, subject and body-part localization, and action recognition. To this end, we introduce MoBind, a hierarchical contrastive learning framework designed to address three challenges: (1) filtering out irrelevant visual background, (2) modeling structured multi-sensor IMU configurations, and (3) achieving fine-grained, sub-second temporal alignment. To isolate motion-relevant cues, MoBind aligns IMU signals with skeletal motion sequences rather than raw pixels. We further decompose full-body motion into local body-part trajectories, pairing each with its corresponding IMU to enable semantically grounded multi-sensor alignment. To capture detailed temporal correspondence, MoBind employs a hierarchical contrastive strategy that first aligns token-level temporal segments, then fuses local (body-part) alignment with global (body-wide) motion aggregation. Evaluated on mRi, TotalCapture, and EgoHumans, MoBind consistently outperforms strong baselines across all four tasks, demonstrating robust fine-grained temporal alignment while preserving coarse semantic consistency across modalities. Code is available at https://github.com/bbvisual/ MoBind.

MoBind: Привязка движения для точного согласования поз по данным IMU и видео

MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

Аннотация

Support