MoBind: 微細なIMU-動画ポーズアラインメントのためのモーション結合
MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment
February 22, 2026
著者: Duc Duy Nguyen, Tat-Jun Chin, Minh Hoai
cs.AI
要旨
我々は、慣性計測装置(IMU)信号と映像から抽出した2D姿勢シーケンス間の統合的な表現を学習し、正確なクロスモーダル検索、時間的同期、被験者及び身体部位の位置特定、行動認識を実現することを目指す。この目的のために、3つの課題:(1)無関係な視覚的背景のフィルタリング、(2)構造化されたマルチセンサーIMU構成のモデリング、(3)細粒度なサブ秒レベルの時間的アラインメントの達成、に取り組む階層的対比学習フレームワーク「MoBind」を提案する。運動に関連する手がかりを抽出するため、MoBindはIMU信号を生の画素ではなく骨格運動シーケンスと対応づける。さらに、全身運動を局所的な身体部位の軌跡に分解し、それぞれを対応するIMUとペアリングすることで、意味的に根ざしたマルチセンサーアラインメントを可能にする。詳細な時間的対応関係を捉えるため、MoBindは階層的対比戦略を採用し、まずトークンレベルの時間セグメントを対応づけ、次に局所的な(身体部位の)アラインメントと大域的な(全身の)運動の集約を融合する。mRi、TotalCapture、EgoHumansでの評価において、MoBindは4つのタスク全てにおいて強力なベースライン手法を一貫して上回り、モダリティ間の粗い意味的一貫性を保ちながら、頑健な細粒度時間アラインメントを実現することを示した。コードはhttps://github.com/bbvisual/ MoBind で公開されている。
English
We aim to learn a joint representation between inertial measurement unit (IMU) signals and 2D pose sequences extracted from video, enabling accurate cross-modal retrieval, temporal synchronization, subject and body-part localization, and action recognition. To this end, we introduce MoBind, a hierarchical contrastive learning framework designed to address three challenges: (1) filtering out irrelevant visual background, (2) modeling structured multi-sensor IMU configurations, and (3) achieving fine-grained, sub-second temporal alignment. To isolate motion-relevant cues, MoBind aligns IMU signals with skeletal motion sequences rather than raw pixels. We further decompose full-body motion into local body-part trajectories, pairing each with its corresponding IMU to enable semantically grounded multi-sensor alignment. To capture detailed temporal correspondence, MoBind employs a hierarchical contrastive strategy that first aligns token-level temporal segments, then fuses local (body-part) alignment with global (body-wide) motion aggregation. Evaluated on mRi, TotalCapture, and EgoHumans, MoBind consistently outperforms strong baselines across all four tasks, demonstrating robust fine-grained temporal alignment while preserving coarse semantic consistency across modalities. Code is available at https://github.com/bbvisual/ MoBind.