ChatPaper.aiChatPaper

MoCapAnything: 単眼ビデオからの任意のスケルトンに対する統一3Dモーションキャプチャ

MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos

December 11, 2025
著者: Kehong Gong, Zhengyu Wen, Weixia He, Mingxi Xu, Qi Wang, Ning Zhang, Zhengyu Li, Dongze Lian, Wei Zhao, Xiaoyu He, Mingyuan Zhang
cs.AI

要旨

モーションキャプチャは現在、デジタルヒューマンを超えたコンテンツ制作の基盤技術となっているが、既存のパイプラインの多くは依然として特定の種族やテンプレートに依存している。我々はこの課題を「カテゴリ不可知的なモーションキャプチャ(CAMoCap)」として定式化する:単眼カメラ映像と任意のリグ付き3Dアセットをプロンプトとして与えられたとき、特定のアセットを直接駆動するBVHなどの回転ベースのアニメーションを再構築することが目的である。本論文ではMoCapAnythingを提案する。これは参照誘導型の分解フレームワークであり、まず3D関節軌跡を予測し、制約を考慮した逆運動学を通じてアセット固有の回転を復元する。システムは3つの学習可能モジュールと軽量なIKステージで構成される:(1)アセットのスケルトン、メッシュ、レンダリング画像から関節ごとのクエリを抽出する参照プロンプトエンコーダ、(2)密な視覚的特徴量を計算し、粗い4D変形メッシュを再構築することで映像と関節空間のギャップを埋める動画特徴抽出器、(3)これらの手がかりを融合して時間的に一貫性のある軌跡を生成する統一運動デコーダである。また、1038のモーションクリップから成るTruebones Zooを構築し、各クリップに標準化されたスケルトン-メッシュ-レンダリングの三要素を提供する。ドメイン内ベンチマークと実世界映像の両方における実験により、MoCapAnythingが高品質な骨格アニメーションを実現し、異種リグ間での意味のある種族間リターゲティングを示すことが確認された。これにより、任意のアセットに対するスケーラブルなプロンプト駆動型3Dモーションキャプチャが可能となる。プロジェクトページ: https://animotionlab.github.io/MoCapAnything/
English
Motion capture now underpins content creation far beyond digital humans, yet most existing pipelines remain species- or template-specific. We formalize this gap as Category-Agnostic Motion Capture (CAMoCap): given a monocular video and an arbitrary rigged 3D asset as a prompt, the goal is to reconstruct a rotation-based animation such as BVH that directly drives the specific asset. We present MoCapAnything, a reference-guided, factorized framework that first predicts 3D joint trajectories and then recovers asset-specific rotations via constraint-aware inverse kinematics. The system contains three learnable modules and a lightweight IK stage: (1) a Reference Prompt Encoder that extracts per-joint queries from the asset's skeleton, mesh, and rendered images; (2) a Video Feature Extractor that computes dense visual descriptors and reconstructs a coarse 4D deforming mesh to bridge the gap between video and joint space; and (3) a Unified Motion Decoder that fuses these cues to produce temporally coherent trajectories. We also curate Truebones Zoo with 1038 motion clips, each providing a standardized skeleton-mesh-render triad. Experiments on both in-domain benchmarks and in-the-wild videos show that MoCapAnything delivers high-quality skeletal animations and exhibits meaningful cross-species retargeting across heterogeneous rigs, enabling scalable, prompt-driven 3D motion capture for arbitrary assets. Project page: https://animotionlab.github.io/MoCapAnything/
PDF201December 13, 2025