MoCapAnything V2: 임의의 골격을 위한 종단 간 모션 캡처
MoCapAnything V2: End-to-End Motion Capture for Arbitrary Skeletons
April 30, 2026
저자: Kehong Gong, Zhengyu Wen, Dao Thien Phong, Mingxi Xu, Weixia He, Qi Wang, Ning Zhang, Zhengyu Li, Guanli Hou, Dongze Lian, Xiaoyu He, Mingyuan Zhang, Hanwang Zhang
cs.AI
초록
단일 영상에서 임의의 골격 모션 캡처를 위한 최근 기법들은 비디오-포즈 네트워크가 관절 위치를 예측하고 분석적 역기구학(IK) 단계가 관절 회전을 복원하는 분리된 파이프라인을 따릅니다. 이러한 설계는 효과적이지만, 관절 위치만으로는 회전을 완전히 결정하지 못하며 뼈 축 트위스트와 같은 자유도를 모호하게 남기는 본질적 한계가 있습니다. 또한 미분 불가능한 IK 단계로 인해 노이즈가 있는 예측에 적응하거나 최종 애니메이션 목표를 최적화하는 것이 불가능합니다. 본 연구에서는 비디오-포즈와 포즈-회전 단계가 모두 학습 가능하며 공동 최적화되는 최초의 완전한 종단간(end-to-end) 프레임워크를 제시합니다. 포즈-회전 매핑의 모호성은 좌표계 정보의 부재에서 기인함을 관찰했습니다: 동일한 관절 위치라도 다른 휴식 자세와 로컬 축 규약 하에서 다른 회전에 대응할 수 있습니다. 이를 해결하기 위해 타겟 애셋에서 참조 포즈-회전 쌍을 도입하며, 이는 휴식 자세와 함께 매핑을 고정할 뿐만 아니라 기본 회전 좌표계를 정의합니다. 이 공식화는 회전 예측을 잘 제약된 조건부 문제로 전환하고 효과적인 학습을 가능하게 합니다. 또한 우리 모델은 메쉬 중간 단계에 의존하지 않고 비디오에서 직접 관절 위치를 예측하여 견고성과 효율성을 모두 향상시킵니다. 두 단계는 관절 수준의 지역 추론과 전역 조정을 위한 골격 인식 전역-지역 그래프 유도 다중 헤드 어텐션(GL-GMHA) 모듈을 공유합니다. Truebones Zoo와 Objaverse에 대한 실험 결과, 우리 방법이 회전 오차를 기존 약 17도에서 약 10도로, 그리고 보지 않은 골격에 대해서는 6.54도로 감소시키며, 메쉬 기반 파이프라인 대비 약 20배 빠른 추론 속도를 달성함을 보여줍니다. 프로젝트 페이지: https://animotionlab.github.io/MoCapAnythingV2/
English
Recent methods for arbitrary-skeleton motion capture from monocular video follow a factorized pipeline, where a Video-to-Pose network predicts joint positions and an analytical inverse-kinematics (IK) stage recovers joint rotations. While effective, this design is inherently limited, since joint positions do not fully determine rotations and leave degrees of freedom such as bone-axis twist ambiguous, and the non-differentiable IK stage prevents the system from adapting to noisy predictions or optimizing for the final animation objective. In this work, we present the first fully end-to-end framework in which both Video-to-Pose and Pose-to-Rotation are learnable and jointly optimized. We observe that the ambiguity in pose-to-rotation mapping arises from missing coordinate system information: the same joint positions can correspond to different rotations under different rest poses and local axis conventions. To resolve this, we introduce a reference pose-rotation pair from the target asset, which, together with the rest pose, not only anchors the mapping but also defines the underlying rotation coordinate system. This formulation turns rotation prediction into a well-constrained conditional problem and enables effective learning. In addition, our model predicts joint positions directly from video without relying on mesh intermediates, improving both robustness and efficiency. Both stages share a skeleton-aware Global-Local Graph-guided Multi-Head Attention (GL-GMHA) module for joint-level local reasoning and global coordination. Experiments on Truebones Zoo and Objaverse show that our method reduces rotation error from ~17 degrees to ~10 degrees, and to 6.54 degrees on unseen skeletons, while achieving ~20x faster inference than mesh-based pipelines. Project page: https://animotionlab.github.io/MoCapAnythingV2/