MoBind: Motion Binding für feinabgestimmte IMU-Video-Posenausrichtung

Zusammenfassung

Wir streben an, eine gemeinsame Repräsentation zwischen Inertialmesssystem (IMU)-Signalen und aus Video extrahierten 2D-Posensequenzen zu erlernen, um eine genaue cross-modale Retrieval, zeitliche Synchronisation, Subjekt- und Körperteil-Lokalisierung sowie Aktionserkennung zu ermöglichen. Zu diesem Zweck stellen wir MoBind vor, ein hierarchisches Contrastive-Learning-Framework, das entwickelt wurde, um drei Herausforderungen zu adressieren: (1) das Herausfiltern irrelevanter visueller Hintergrundinformationen, (2) die Modellierung strukturierter Multi-Sensor-IMU-Konfigurationen und (3) die Erreichung einer feingranularen, subsekundären temporalen Ausrichtung. Um bewegungsrelevante Hinweise zu isolieren, richtet MoBind IMU-Signale an Skelettbewegungssequenzen und nicht an Rohpixeln aus. Wir zerlegen die Ganzkörperbewegung weiter in lokale Körperteil-Trajektorien und paaren jede mit ihrem entsprechenden IMU, um eine semantisch fundierte Multi-Sensor-Ausrichtung zu ermöglichen. Um eine detaillierte temporale Korrespondenz zu erfassen, verwendet MoBind eine hierarchische Contrastive-Strategie, die zunächst Token-level temporale Segmente ausrichtet und dann die lokale (Körperteil-)Ausrichtung mit der globalen (körperweiten) Bewegungsaggregation fusioniert. Evaluierungen auf mRi, TotalCapture und EgoHumans zeigen, dass MoBind durchgängig starke Baseline-Methoden in allen vier Aufgaben übertrifft und dabei eine robuste feingranulare temporale Ausrichtung bei gleichzeitiger Bewahrung grober semantischer Konsistenz über Modalitäten hinweg demonstriert. Code ist verfügbar unter https://github.com/bbvisual/MoBind.

English

We aim to learn a joint representation between inertial measurement unit (IMU) signals and 2D pose sequences extracted from video, enabling accurate cross-modal retrieval, temporal synchronization, subject and body-part localization, and action recognition. To this end, we introduce MoBind, a hierarchical contrastive learning framework designed to address three challenges: (1) filtering out irrelevant visual background, (2) modeling structured multi-sensor IMU configurations, and (3) achieving fine-grained, sub-second temporal alignment. To isolate motion-relevant cues, MoBind aligns IMU signals with skeletal motion sequences rather than raw pixels. We further decompose full-body motion into local body-part trajectories, pairing each with its corresponding IMU to enable semantically grounded multi-sensor alignment. To capture detailed temporal correspondence, MoBind employs a hierarchical contrastive strategy that first aligns token-level temporal segments, then fuses local (body-part) alignment with global (body-wide) motion aggregation. Evaluated on mRi, TotalCapture, and EgoHumans, MoBind consistently outperforms strong baselines across all four tasks, demonstrating robust fine-grained temporal alignment while preserving coarse semantic consistency across modalities. Code is available at https://github.com/bbvisual/ MoBind.

MoBind: Motion Binding für feinabgestimmte IMU-Video-Posenausrichtung

MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

Zusammenfassung

Support