MoCapAnything V2: Captura de Movimiento de Extremo a Extremo para Esqueletos Arbitrarios
MoCapAnything V2: End-to-End Motion Capture for Arbitrary Skeletons
April 30, 2026
Autores: Kehong Gong, Zhengyu Wen, Dao Thien Phong, Mingxi Xu, Weixia He, Qi Wang, Ning Zhang, Zhengyu Li, Guanli Hou, Dongze Lian, Xiaoyu He, Mingyuan Zhang, Hanwang Zhang
cs.AI
Resumen
Los métodos recientes para captura de movimiento con esqueletos arbitrarios a partir de vídeo monocular siguen una canalización factorizada: una red Vídeo-a-Posición predice las posiciones articulares y una etapa analítica de cinemática inversa recupera las rotaciones articulares. Aunque efectivo, este diseño es inherentemente limitado, ya que las posiciones articulares no determinan completamente las rotaciones y dejan grados de libertad ambiguos, como la torsión del eje óseo, y la etapa no diferenciable de cinemática inversa impide que el sistema se adapte a predicciones ruidosas u optimice el objetivo final de animación. En este trabajo, presentamos el primer marco completamente integral en el que tanto Vídeo-a-Posición como Posición-a-Rotación son aprendibles y se optimizan conjuntamente. Observamos que la ambigüedad en el mapeo posición-rotación surge de la falta de información del sistema de coordenadas: las mismas posiciones articulares pueden corresponder a diferentes rotaciones bajo distintas posturas de reposo y convenciones de ejes locales. Para resolverlo, introducimos un par de referencia postura-rotación del recurso objetivo que, junto con la postura de reposo, no solo ancla el mapeo sino que define el sistema de coordenadas de rotación subyacente. Esta formulación convierte la predicción de rotación en un problema condicional bien definido y permite un aprendizaje efectivo. Además, nuestro modelo predice posiciones articulares directamente del vídeo sin depender de intermediarios de malla, mejorando tanto la robustez como la eficiencia. Ambas etapas comparten un módulo de Atención Multi-Cabeza Guiada por Grafo Global-Local (GL-GMHA) consciente del esqueleto para razonamiento local a nivel articular y coordinación global. Los experimentos en Truebones Zoo y Objaverse muestran que nuestro método reduce el error de rotación de ~17 grados a ~10 grados, y a 6.54 grados en esqueletos no vistos, mientras logra una inferencia ~20 veces más rápida que las canalizaciones basadas en malla. Página del proyecto: https://animotionlab.github.io/MoCapAnythingV2/
English
Recent methods for arbitrary-skeleton motion capture from monocular video follow a factorized pipeline, where a Video-to-Pose network predicts joint positions and an analytical inverse-kinematics (IK) stage recovers joint rotations. While effective, this design is inherently limited, since joint positions do not fully determine rotations and leave degrees of freedom such as bone-axis twist ambiguous, and the non-differentiable IK stage prevents the system from adapting to noisy predictions or optimizing for the final animation objective. In this work, we present the first fully end-to-end framework in which both Video-to-Pose and Pose-to-Rotation are learnable and jointly optimized. We observe that the ambiguity in pose-to-rotation mapping arises from missing coordinate system information: the same joint positions can correspond to different rotations under different rest poses and local axis conventions. To resolve this, we introduce a reference pose-rotation pair from the target asset, which, together with the rest pose, not only anchors the mapping but also defines the underlying rotation coordinate system. This formulation turns rotation prediction into a well-constrained conditional problem and enables effective learning. In addition, our model predicts joint positions directly from video without relying on mesh intermediates, improving both robustness and efficiency. Both stages share a skeleton-aware Global-Local Graph-guided Multi-Head Attention (GL-GMHA) module for joint-level local reasoning and global coordination. Experiments on Truebones Zoo and Objaverse show that our method reduces rotation error from ~17 degrees to ~10 degrees, and to 6.54 degrees on unseen skeletons, while achieving ~20x faster inference than mesh-based pipelines. Project page: https://animotionlab.github.io/MoCapAnythingV2/