MoCapAnything : Capture de mouvement 3D unifiée pour des squelettes arbitraires à partir de vidéos monoculaires
MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos
December 11, 2025
papers.authors: Kehong Gong, Zhengyu Wen, Weixia He, Mingxi Xu, Qi Wang, Ning Zhang, Zhengyu Li, Dongze Lian, Wei Zhao, Xiaoyu He, Mingyuan Zhang
cs.AI
papers.abstract
La capture de mouvement sous-tend désormais la création de contenu bien au-delà des humains numériques, pourtant la plupart des pipelines existants restent spécifiques à une espèce ou à un modèle. Nous formalisons cet écart comme la Capture de Mouvement Agnosticiste aux Catégories (CAMoCap) : étant donné une vidéo monoculaire et un asset 3D riggé arbitraire comme prompt, l'objectif est de reconstruire une animation basée sur les rotations (comme un fichier BVH) qui pilote directement l'asset spécifique. Nous présentons MoCapAnything, un framework factorisé et guidé par référence qui prédit d'abord les trajectoires articulaires 3D, puis retrouve les rotations spécifiques à l'asset via une cinématique inverse prenant en compte les contraintes. Le système contient trois modules apprenables et une étape légère de cinématique inverse : (1) un Encodeur de Prompt de Référence qui extrait des requêtes par articulation du squelette, du maillage et des images rendues de l'asset ; (2) un Extracteur de Caractéristiques Vidéo qui calcule des descripteurs visuels denses et reconstruit un maillage déformable 4D grossier pour combler le fossé entre l'espace vidéo et l'espace articulaire ; et (3) un Décodeur de Mouvement Unifié qui fusionne ces indices pour produire des trajectoires temporellement cohérentes. Nous avons également constitué le "Truebones Zoo" avec 1038 clips de mouvement, chacun fournissant une triade standardisée squelette-maillage-rendu. Les expériences sur des benchmarks en domaine fermé et des vidéos en conditions réelles montrent que MoCapAnything produit des animations squelettiques de haute qualité et présente un transfert interspèces significatif entre rigs hétérogènes, permettant une capture de mouvement 3D pilotée par prompt et scalable pour des assets arbitraires. Page du projet : https://animotionlab.github.io/MoCapAnything/
English
Motion capture now underpins content creation far beyond digital humans, yet most existing pipelines remain species- or template-specific. We formalize this gap as Category-Agnostic Motion Capture (CAMoCap): given a monocular video and an arbitrary rigged 3D asset as a prompt, the goal is to reconstruct a rotation-based animation such as BVH that directly drives the specific asset. We present MoCapAnything, a reference-guided, factorized framework that first predicts 3D joint trajectories and then recovers asset-specific rotations via constraint-aware inverse kinematics. The system contains three learnable modules and a lightweight IK stage: (1) a Reference Prompt Encoder that extracts per-joint queries from the asset's skeleton, mesh, and rendered images; (2) a Video Feature Extractor that computes dense visual descriptors and reconstructs a coarse 4D deforming mesh to bridge the gap between video and joint space; and (3) a Unified Motion Decoder that fuses these cues to produce temporally coherent trajectories. We also curate Truebones Zoo with 1038 motion clips, each providing a standardized skeleton-mesh-render triad. Experiments on both in-domain benchmarks and in-the-wild videos show that MoCapAnything delivers high-quality skeletal animations and exhibits meaningful cross-species retargeting across heterogeneous rigs, enabling scalable, prompt-driven 3D motion capture for arbitrary assets. Project page: https://animotionlab.github.io/MoCapAnything/