MoCapAnything: Rilevamento Unificato del Movimento 3D per Scheletri Arbitrari da Video Monoculari
MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos
December 11, 2025
Autori: Kehong Gong, Zhengyu Wen, Weixia He, Mingxi Xu, Qi Wang, Ning Zhang, Zhengyu Li, Dongze Lian, Wei Zhao, Xiaoyu He, Mingyuan Zhang
cs.AI
Abstract
La motion capture è oggi alla base della creazione di contenuti che va ben oltre gli umani digitali, eppure la maggior parte delle pipeline esistenti rimane specifica per specie o per modello. Formalizziamo questa lacuna come Motion Capture Agnostic alla Categoria (CAMoCap): dato un video monoculare e una risorsa 3D riggata arbitraria come prompt, l'obiettivo è ricostruire un'animazione basata su rotazioni, come il formato BVH, che animi direttamente l'asset specifico. Presentiamo MoCapAnything, un framework fattorizzato e guidato da riferimento che prima predice le traiettorie 3D dei giunti e poi recupera le rotazioni specifiche dell'asset tramite cinematica inversa consapevole dei vincoli. Il sistema contiene tre moduli addestrabili e una fase leggera di IK: (1) un Reference Prompt Encoder che estrae query per giunto dallo scheletro, dalla mesh e dalle immagini renderizzate dell'asset; (2) un Video Feature Extractor che calcola descrittori visivi densi e ricostruisce una mesh deformativa 4D approssimata per colmare il divario tra spazio video e spazio dei giunti; e (3) un Unified Motion Decoder che fonde questi segnali per produrre traiettorie temporalmente coerenti. Abbiamo anche curato Truebones Zoo con 1038 clip di movimento, ciascuna delle quali fornisce una triade standardizzata scheletro-mesh-render. Esperimenti su benchmark in-domain e su video in-the-wild mostrano che MoCapAnything fornisce animazioni scheletriche di alta qualità ed esibisce un retargeting significativo tra specie diverse su rig eterogenei, abilitando una motion capture 3D scalabile e guidata da prompt per asset arbitrari. Pagina del progetto: https://animotionlab.github.io/MoCapAnything/
English
Motion capture now underpins content creation far beyond digital humans, yet most existing pipelines remain species- or template-specific. We formalize this gap as Category-Agnostic Motion Capture (CAMoCap): given a monocular video and an arbitrary rigged 3D asset as a prompt, the goal is to reconstruct a rotation-based animation such as BVH that directly drives the specific asset. We present MoCapAnything, a reference-guided, factorized framework that first predicts 3D joint trajectories and then recovers asset-specific rotations via constraint-aware inverse kinematics. The system contains three learnable modules and a lightweight IK stage: (1) a Reference Prompt Encoder that extracts per-joint queries from the asset's skeleton, mesh, and rendered images; (2) a Video Feature Extractor that computes dense visual descriptors and reconstructs a coarse 4D deforming mesh to bridge the gap between video and joint space; and (3) a Unified Motion Decoder that fuses these cues to produce temporally coherent trajectories. We also curate Truebones Zoo with 1038 motion clips, each providing a standardized skeleton-mesh-render triad. Experiments on both in-domain benchmarks and in-the-wild videos show that MoCapAnything delivers high-quality skeletal animations and exhibits meaningful cross-species retargeting across heterogeneous rigs, enabling scalable, prompt-driven 3D motion capture for arbitrary assets. Project page: https://animotionlab.github.io/MoCapAnything/