MoCapAnything: Captura de Movimiento 3D Unificada para Esqueletos Arbitrarios a partir de Vídeos Monoculares
MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos
December 11, 2025
Autores: Kehong Gong, Zhengyu Wen, Weixia He, Mingxi Xu, Qi Wang, Ning Zhang, Zhengyu Li, Dongze Lian, Wei Zhao, Xiaoyu He, Mingyuan Zhang
cs.AI
Resumen
La captura de movimiento sustenta actualmente la creación de contenido mucho más allá de los humanos digitales, sin embargo, la mayoría de los flujos de trabajo existentes siguen siendo específicos de una especie o plantilla. Formalizamos esta brecha como Captura de Movimiento Independiente de la Categoría (CAMoCap): dado un video monocular y un activo 3D articulado arbitrario como *prompt*, el objetivo es reconstruir una animación basada en rotaciones, como BVH, que controle directamente el activo específico. Presentamos MoCapAnything, un marco factorizado y guiado por referencia que primero predice las trayectorias articulares 3D y luego recupera las rotaciones específicas del activo mediante cinemática inversa con restricciones. El sistema contiene tres módulos entrenables y una etapa ligera de CI: (1) un Codificador de Prompt de Referencia que extrae consultas por articulación del esqueleto, la malla y las imágenes renderizadas del activo; (2) un Extractor de Características de Video que calcula descriptores visuales densos y reconstruye una malla deformante 4D gruesa para tender un puente entre el espacio del video y el espacio articular; y (3) un Decodificador de Movimiento Unificado que fusiona estas señales para producir trayectorias temporalmente coherentes. También hemos creado Truebones Zoo con 1038 clips de movimiento, cada uno de los cuales proporciona una tríada estandarizada de esqueleto-malla-renderizado. Los experimentos en benchmarks de dominio interno y en videos del mundo real muestran que MoCapAnything genera animaciones esqueléticas de alta calidad y exhibe una retargetización significativa entre especies a través de rigs heterogéneos, permitiendo una captura de movimiento 3D escalable y dirigida por prompt para activos arbitrarios. Página del proyecto: https://animotionlab.github.io/MoCapAnything/
English
Motion capture now underpins content creation far beyond digital humans, yet most existing pipelines remain species- or template-specific. We formalize this gap as Category-Agnostic Motion Capture (CAMoCap): given a monocular video and an arbitrary rigged 3D asset as a prompt, the goal is to reconstruct a rotation-based animation such as BVH that directly drives the specific asset. We present MoCapAnything, a reference-guided, factorized framework that first predicts 3D joint trajectories and then recovers asset-specific rotations via constraint-aware inverse kinematics. The system contains three learnable modules and a lightweight IK stage: (1) a Reference Prompt Encoder that extracts per-joint queries from the asset's skeleton, mesh, and rendered images; (2) a Video Feature Extractor that computes dense visual descriptors and reconstructs a coarse 4D deforming mesh to bridge the gap between video and joint space; and (3) a Unified Motion Decoder that fuses these cues to produce temporally coherent trajectories. We also curate Truebones Zoo with 1038 motion clips, each providing a standardized skeleton-mesh-render triad. Experiments on both in-domain benchmarks and in-the-wild videos show that MoCapAnything delivers high-quality skeletal animations and exhibits meaningful cross-species retargeting across heterogeneous rigs, enabling scalable, prompt-driven 3D motion capture for arbitrary assets. Project page: https://animotionlab.github.io/MoCapAnything/