MoCapAnything: Captura de Movimento 3D Unificada para Esqueletos Arbitrários a Partir de Vídeos Monoculares
MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos
December 11, 2025
Autores: Kehong Gong, Zhengyu Wen, Weixia He, Mingxi Xu, Qi Wang, Ning Zhang, Zhengyu Li, Dongze Lian, Wei Zhao, Xiaoyu He, Mingyuan Zhang
cs.AI
Resumo
A captura de movimento sustenta atualmente a criação de conteúdo muito além dos humanos digitais, mas a maioria dos fluxos de trabalho existentes permanece específica para uma espécie ou modelo. Formalizamos esta lacuna como Captura de Movimento Agnóstica a Categorias (CAMoCap): dado um vídeo monocromático e um recurso 3D articulado arbitrário como prompt, o objetivo é reconstruir uma animação baseada em rotação, como BVH, que acione diretamente o recurso específico. Apresentamos o MoCapAnything, uma estrutura fatorizada e guiada por referência que primeiro prevê trajetórias de articulações 3D e depois recupera rotações específicas do recurso através de cinemática inversa com restrições. O sistema contém três módulos treináveis e um estágio leve de IK: (1) um Codificador de Prompt de Referência que extrai consultas por articulação a partir do esqueleto, malha e imagens renderizadas do recurso; (2) um Extrator de Características de Vídeo que calcula descritores visuais densos e reconstrói uma malha de deformação 4D grosseira para preencher a lacuna entre o espaço do vídeo e o espaço das articulações; e (3) um Decodificador de Movimento Unificado que funde essas pistas para produzir trajetórias temporalmente coerentes. Também criámos o Truebones Zoo com 1038 clipes de movimento, cada um fornecendo uma tríade padronizada de esqueleto-malha-renderização. Experiências em benchmarks de domínio interno e em vídeos do mundo real mostram que o MoCapAnything fornece animações esqueléticas de alta qualidade e exibe uma retargeting significativa entre espécies através de rigs heterogéneos, permitindo uma captura de movimento 3D escalável e orientada por prompts para recursos arbitrários. Página do projeto: https://animotionlab.github.io/MoCapAnything/
English
Motion capture now underpins content creation far beyond digital humans, yet most existing pipelines remain species- or template-specific. We formalize this gap as Category-Agnostic Motion Capture (CAMoCap): given a monocular video and an arbitrary rigged 3D asset as a prompt, the goal is to reconstruct a rotation-based animation such as BVH that directly drives the specific asset. We present MoCapAnything, a reference-guided, factorized framework that first predicts 3D joint trajectories and then recovers asset-specific rotations via constraint-aware inverse kinematics. The system contains three learnable modules and a lightweight IK stage: (1) a Reference Prompt Encoder that extracts per-joint queries from the asset's skeleton, mesh, and rendered images; (2) a Video Feature Extractor that computes dense visual descriptors and reconstructs a coarse 4D deforming mesh to bridge the gap between video and joint space; and (3) a Unified Motion Decoder that fuses these cues to produce temporally coherent trajectories. We also curate Truebones Zoo with 1038 motion clips, each providing a standardized skeleton-mesh-render triad. Experiments on both in-domain benchmarks and in-the-wild videos show that MoCapAnything delivers high-quality skeletal animations and exhibits meaningful cross-species retargeting across heterogeneous rigs, enabling scalable, prompt-driven 3D motion capture for arbitrary assets. Project page: https://animotionlab.github.io/MoCapAnything/