MoBind: Vinculação de Movimento para Alinhamento Pósural Fino entre IMU e Vídeo

Resumo

Nosso objetivo é aprender uma representação conjunta entre sinais de unidades de medição inercial (IMU) e sequências de poses 2D extraídas de vídeo, permitindo recuperação multimodal precisa, sincronização temporal, localização de sujeitos e partes do corpo, e reconhecimento de ações. Para isso, introduzimos o MoBind, uma estrutura hierárquica de aprendizado contrastivo projetada para abordar três desafios: (1) filtrar o fundo visual irrelevante, (2) modelar configurações estruturadas de IMUs multi-sensor e (3) alcançar alinhamento temporal de granularidade fina, em nível subsegundo. Para isolar pistas relevantes para o movimento, o MoBind alinha sinais de IMU com sequências de movimento esquelético em vez de pixels brutos. Decompomos ainda mais o movimento corporal completo em trajetórias locais de partes do corpo, emparelhando cada uma com seu IMU correspondente para permitir um alinhamento multi-sensor semanticamente fundamentado. Para capturar correspondência temporal detalhada, o MoBind emprega uma estratégia contrastiva hierárquica que primeiro alinha segmentos temporais em nível de token, depois funde o alinhamento local (parte do corpo) com a agregação de movimento global (corpo inteiro). Avaliado em mRi, TotalCapture e EgoHumans, o MoBind supera consistentemente baselines fortes em todas as quatro tarefas, demonstrando alinhamento temporal de granularidade fina robusto, preservando ao mesmo tempo a consistência semântica coarse entre as modalidades. O código está disponível em https://github.com/bbvisual/MoBind.

English

We aim to learn a joint representation between inertial measurement unit (IMU) signals and 2D pose sequences extracted from video, enabling accurate cross-modal retrieval, temporal synchronization, subject and body-part localization, and action recognition. To this end, we introduce MoBind, a hierarchical contrastive learning framework designed to address three challenges: (1) filtering out irrelevant visual background, (2) modeling structured multi-sensor IMU configurations, and (3) achieving fine-grained, sub-second temporal alignment. To isolate motion-relevant cues, MoBind aligns IMU signals with skeletal motion sequences rather than raw pixels. We further decompose full-body motion into local body-part trajectories, pairing each with its corresponding IMU to enable semantically grounded multi-sensor alignment. To capture detailed temporal correspondence, MoBind employs a hierarchical contrastive strategy that first aligns token-level temporal segments, then fuses local (body-part) alignment with global (body-wide) motion aggregation. Evaluated on mRi, TotalCapture, and EgoHumans, MoBind consistently outperforms strong baselines across all four tasks, demonstrating robust fine-grained temporal alignment while preserving coarse semantic consistency across modalities. Code is available at https://github.com/bbvisual/ MoBind.

MoBind: Vinculação de Movimento para Alinhamento Pósural Fino entre IMU e Vídeo

MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

Resumo

Support