MoBind : Liaison de mouvement pour l'alignement de pose fin IMU-vidéo

Résumé

Nous visons à apprendre une représentation conjointe entre les signaux d'unités de mesure inertielle (IMU) et les séquences de poses 2D extraites de vidéos, permettant une recherche croisée multimodale précise, une synchronisation temporelle, une localisation du sujet et des parties du corps, ainsi qu'une reconnaissance d'actions. Pour cela, nous présentons MoBind, un cadre d'apprentissage hiérarchique par contraste conçu pour relever trois défis : (1) filtrer l'arrière-plan visuel non pertinent, (2) modéliser des configurations structurées d'IMU multi-capteurs, et (3) atteindre un alignement temporel fin à l'échelle inférieure à la seconde. Pour isoler les indices pertinents au mouvement, MoBind aligne les signaux IMU avec des séquences de mouvements squelettiques plutôt qu'avec des pixels bruts. Nous décomposons en outre le mouvement corporel complet en trajectoires locales des parties du corps, en associant chacune à son IMU correspondante pour permettre un alignement multi-capteurs sémantiquement fondé. Pour capturer la correspondance temporelle détaillée, MoBind emploie une stratégie hiérarchique par contraste qui aligne d'abord les segments temporels au niveau des tokens, puis fusionne l'alignement local (parties du corps) avec une agrégation globale du mouvement (corps entier). Évalué sur mRi, TotalCapture et EgoHumans, MoBind surpasse constamment des bases de référence solides dans les quatre tâches, démontrant un alignement temporel fin robuste tout en préservant une cohérence sémantique grossière entre les modalités. Le code est disponible à l'adresse https://github.com/bbvisual/MoBind.

English

We aim to learn a joint representation between inertial measurement unit (IMU) signals and 2D pose sequences extracted from video, enabling accurate cross-modal retrieval, temporal synchronization, subject and body-part localization, and action recognition. To this end, we introduce MoBind, a hierarchical contrastive learning framework designed to address three challenges: (1) filtering out irrelevant visual background, (2) modeling structured multi-sensor IMU configurations, and (3) achieving fine-grained, sub-second temporal alignment. To isolate motion-relevant cues, MoBind aligns IMU signals with skeletal motion sequences rather than raw pixels. We further decompose full-body motion into local body-part trajectories, pairing each with its corresponding IMU to enable semantically grounded multi-sensor alignment. To capture detailed temporal correspondence, MoBind employs a hierarchical contrastive strategy that first aligns token-level temporal segments, then fuses local (body-part) alignment with global (body-wide) motion aggregation. Evaluated on mRi, TotalCapture, and EgoHumans, MoBind consistently outperforms strong baselines across all four tasks, demonstrating robust fine-grained temporal alignment while preserving coarse semantic consistency across modalities. Code is available at https://github.com/bbvisual/ MoBind.

MoBind : Liaison de mouvement pour l'alignement de pose fin IMU-vidéo

MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

Résumé

Support