MoBind: Vinculación de Movimiento para la Alineación Precisa de Posturas entre IMU y Video

Resumen

Nuestro objetivo es aprender una representación conjunta entre las señales de unidades de medición inercial (IMU) y las secuencias de poses 2D extraídas de video, permitiendo una recuperación cruzada multimodal precisa, sincronización temporal, localización de sujetos y partes del cuerpo, y reconocimiento de acciones. Para ello, presentamos MoBind, un marco de aprendizaje contrastivo jerárquico diseñado para abordar tres desafíos: (1) filtrar el fondo visual irrelevante, (2) modelar configuraciones estructuradas de IMU multi-sensor, y (3) lograr una alineación temporal fina, a nivel de sub-segundo. Para aislar las claves relevantes para el movimiento, MoBind alinea las señales de IMU con secuencias de movimiento esquelético en lugar de píxeles en bruto. Además, descomponemos el movimiento corporal completo en trayectorias locales de partes del cuerpo, emparejando cada una con su IMU correspondiente para permitir una alineación multi-sensor semánticamente fundamentada. Para capturar la correspondencia temporal detallada, MoBind emplea una estrategia contrastiva jerárquica que primero alinea segmentos temporales a nivel de *token*, luego fusiona la alineación local (partes del cuerpo) con una agregación global de movimiento (de todo el cuerpo). Evaluado en mRi, TotalCapture y EgoHumans, MoBind supera consistentemente a los métodos de referencia sólidos en las cuatro tareas, demostrando una alineación temporal fina robusta mientras preserva la coherencia semántica general entre modalidades. El código está disponible en https://github.com/bbvisual/MoBind.

English

We aim to learn a joint representation between inertial measurement unit (IMU) signals and 2D pose sequences extracted from video, enabling accurate cross-modal retrieval, temporal synchronization, subject and body-part localization, and action recognition. To this end, we introduce MoBind, a hierarchical contrastive learning framework designed to address three challenges: (1) filtering out irrelevant visual background, (2) modeling structured multi-sensor IMU configurations, and (3) achieving fine-grained, sub-second temporal alignment. To isolate motion-relevant cues, MoBind aligns IMU signals with skeletal motion sequences rather than raw pixels. We further decompose full-body motion into local body-part trajectories, pairing each with its corresponding IMU to enable semantically grounded multi-sensor alignment. To capture detailed temporal correspondence, MoBind employs a hierarchical contrastive strategy that first aligns token-level temporal segments, then fuses local (body-part) alignment with global (body-wide) motion aggregation. Evaluated on mRi, TotalCapture, and EgoHumans, MoBind consistently outperforms strong baselines across all four tasks, demonstrating robust fine-grained temporal alignment while preserving coarse semantic consistency across modalities. Code is available at https://github.com/bbvisual/ MoBind.

MoBind: Vinculación de Movimiento para la Alineación Precisa de Posturas entre IMU y Video

MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

Resumen

Support