MoBind: 세분화된 IMU-비디오 포즈 정합을 위한 모션 바인딩
MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment
February 22, 2026
저자: Duc Duy Nguyen, Tat-Jun Chin, Minh Hoai
cs.AI
초록
우리는 관성 측정 장치(IMU) 신호와 비디오에서 추출한 2D 자세 시퀀스 간의 공동 표현을 학습하여 정확한 크로스모달 검색, 시간적 동기화, 대상 및 신체 부위 위치 추정, 행동 인식을 가능하게 하는 것을 목표로 합니다. 이를 위해 세 가지 과제를 해결하도록 설계된 계층적 대조 학습 프레임워크인 MoBind을 소개합니다: (1) 무관한 시각적 배경 필터링, (2) 구조화된 다중 센서 IMU 구성 모델링, (3) 세밀한 서브-초 단위 시간 정렬 달성. MoBind은 모션 관련 신호를 분리하기 위해 원시 픽셀이 아닌 골격 모션 시퀀스와 IMU 신호를 정렬합니다. 또한 전신 모션을 신체 부위별 궤적으로 분해하여 각각을 해당 IMU와 짝지어 의미론적으로 근거된 다중 센서 정렬을 가능하게 합니다. 세밀한 시간적 대응 관계를 포착하기 위해 MoBind는 토큰 수준의 시간 세그먼트를 먼저 정렬한 후, 지역적(신체 부위) 정렬과 전역적(전신) 모션 집계를 융합하는 계층적 대조 전략을 채택합니다. mRi, TotalCapture, EgoHumans 데이터셋에서 평가한 결과, MoBind는 네 가지 과제 모두에서 강력한 기준 모델을 일관되게 능가하며, 모달리티 간의 거시적 의미 일관성을 유지하면서도 견고한 세밀한 시간 정렬 성능을 입증했습니다. 코드는 https://github.com/bbvisual/MoBind에서 확인할 수 있습니다.
English
We aim to learn a joint representation between inertial measurement unit (IMU) signals and 2D pose sequences extracted from video, enabling accurate cross-modal retrieval, temporal synchronization, subject and body-part localization, and action recognition. To this end, we introduce MoBind, a hierarchical contrastive learning framework designed to address three challenges: (1) filtering out irrelevant visual background, (2) modeling structured multi-sensor IMU configurations, and (3) achieving fine-grained, sub-second temporal alignment. To isolate motion-relevant cues, MoBind aligns IMU signals with skeletal motion sequences rather than raw pixels. We further decompose full-body motion into local body-part trajectories, pairing each with its corresponding IMU to enable semantically grounded multi-sensor alignment. To capture detailed temporal correspondence, MoBind employs a hierarchical contrastive strategy that first aligns token-level temporal segments, then fuses local (body-part) alignment with global (body-wide) motion aggregation. Evaluated on mRi, TotalCapture, and EgoHumans, MoBind consistently outperforms strong baselines across all four tasks, demonstrating robust fine-grained temporal alignment while preserving coarse semantic consistency across modalities. Code is available at https://github.com/bbvisual/ MoBind.