MoBind: Associazione del Movimento per l'Allineamento Precise delle Posen IMU-Video

Abstract

Ci proponiamo di apprendere una rappresentazione congiunta tra i segnali dell'unità di misura inerziale (IMU) e le sequenze di pose 2D estratte da video, abilitando un recupero cross-modale accurato, la sincronizzazione temporale, la localizzazione del soggetto e delle parti del corpo, e il riconoscimento delle azioni. A questo scopo, introduciamo MoBind, un framework di apprendimento contrastivo gerarchico progettato per affrontare tre sfide: (1) filtrare lo sfondo visivo irrilevante, (2) modellare configurazioni strutturate di IMU multi-sensore, e (3) raggiungere un allineamento temporale fine-granularità, inferiore al secondo. Per isolare gli indizi rilevanti per il movimento, MoBind allinea i segnali IMU con sequenze di movimento scheletrico piuttosto che con pixel grezzi. Scomponiamo ulteriormente il movimento corporeo completo in traiettorie locali delle parti del corpo, associando ciascuna al rispettivo IMU per abilitare un allineamento multi-sensore semanticamente fondato. Per catturare una corrispondenza temporale dettagliata, MoBind impiega una strategia contrastiva gerarchica che prima allinea segmenti temporali a livello di token, poi fonde l'allineamento locale (parte del corpo) con un'aggregazione del movimento globale (corpo intero). Valutato su mRi, TotalCapture ed EgoHumans, MoBind supera costantemente baseline solide in tutti e quattro i compiti, dimostrando un robusto allineamento temporale fine-granularità preservando al contempo la coerenza semantica a livello grossolano tra le modalità. Il codice è disponibile all'indirizzo https://github.com/bbvisual/MoBind.

English

We aim to learn a joint representation between inertial measurement unit (IMU) signals and 2D pose sequences extracted from video, enabling accurate cross-modal retrieval, temporal synchronization, subject and body-part localization, and action recognition. To this end, we introduce MoBind, a hierarchical contrastive learning framework designed to address three challenges: (1) filtering out irrelevant visual background, (2) modeling structured multi-sensor IMU configurations, and (3) achieving fine-grained, sub-second temporal alignment. To isolate motion-relevant cues, MoBind aligns IMU signals with skeletal motion sequences rather than raw pixels. We further decompose full-body motion into local body-part trajectories, pairing each with its corresponding IMU to enable semantically grounded multi-sensor alignment. To capture detailed temporal correspondence, MoBind employs a hierarchical contrastive strategy that first aligns token-level temporal segments, then fuses local (body-part) alignment with global (body-wide) motion aggregation. Evaluated on mRi, TotalCapture, and EgoHumans, MoBind consistently outperforms strong baselines across all four tasks, demonstrating robust fine-grained temporal alignment while preserving coarse semantic consistency across modalities. Code is available at https://github.com/bbvisual/ MoBind.

MoBind: Associazione del Movimento per l'Allineamento Precise delle Posen IMU-Video

MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

Abstract

Support