MoCapAnything V2: End-to-End Bewegingsvastlegging voor Willekeurige Skeletten
MoCapAnything V2: End-to-End Motion Capture for Arbitrary Skeletons
April 30, 2026
Auteurs: Kehong Gong, Zhengyu Wen, Dao Thien Phong, Mingxi Xu, Weixia He, Qi Wang, Ning Zhang, Zhengyu Li, Guanli Hou, Dongze Lian, Xiaoyu He, Mingyuan Zhang, Hanwang Zhang
cs.AI
Samenvatting
Recente methoden voor motion capture met willekeurige skeletten uit monovideo volgen een gefactoriseerde pijplijn: een Video-naar-Pose-netwerk voorspelt gewrichtsposities, en een analytische inverse-kinematische (IK) fase herstelt gewrichtsrotaties. Hoewel effectief, is dit ontwerp inherent beperkt, omdat gewrichtsposities rotaties niet volledig bepalen en vrijheidsgraden zoals torsie van de botas ambigu laten. De niet-differentieerbare IK-fase voorkomt bovendien dat het systeem zich kan aanpassen aan onzuivere voorspellingen of kan optimaliseren voor het uiteindelijke animatiedoel. In dit werk presenteren we het eerste volledig end-to-end raamwerk waarin zowel Video-naar-Pose als Pose-naar-Rotatie leerbaar zijn en gezamenlijk geoptimaliseerd worden. Wij observeren dat de ambiguïteit in de pose-naar-rotatie-afbeelding ontstaat door ontbrekende coördinatensysteeminformatie: dezelfde gewrichtsposities kunnen onder verschillende rustposities en lokale asconventies corresponderen met verschillende rotaties. Om dit op te lossen, introduceren we een referentie pose-rotatie-paar van de doelasset, dat samen met het rustpose niet alleen de afbeelding verankert, maar ook het onderliggende rotatiecoördinatensysteem definieert. Deze formulering maakt van rotatievoorspelling een goed-gebonden conditioneel probleem en maakt effectief leren mogelijk. Daarnaast voorspelt ons model gewrichtsposities direct uit video zonder afhankelijk te zijn van mesh-tussenproducten, wat zowel de robuustheid als efficiëntie verbetert. Beide fasen delen een skeletbewuste Global-Local Graph-guided Multi-Head Attention (GL-GMHA) module voor lokaal redeneren op gewrichtsniveau en globale coördinatie. Experimenten op Truebones Zoo en Objaverse tonen aan dat onze methode de rotatiefout reduceert van ~17 graden naar ~10 graden, en naar 6,54 graden op onbekende skeletten, terwijl een ~20x snellere inferentie wordt bereikt dan bij op mesh gebaseerde pijplijnen. Projectpagina: https://animotionlab.github.io/MoCapAnythingV2/
English
Recent methods for arbitrary-skeleton motion capture from monocular video follow a factorized pipeline, where a Video-to-Pose network predicts joint positions and an analytical inverse-kinematics (IK) stage recovers joint rotations. While effective, this design is inherently limited, since joint positions do not fully determine rotations and leave degrees of freedom such as bone-axis twist ambiguous, and the non-differentiable IK stage prevents the system from adapting to noisy predictions or optimizing for the final animation objective. In this work, we present the first fully end-to-end framework in which both Video-to-Pose and Pose-to-Rotation are learnable and jointly optimized. We observe that the ambiguity in pose-to-rotation mapping arises from missing coordinate system information: the same joint positions can correspond to different rotations under different rest poses and local axis conventions. To resolve this, we introduce a reference pose-rotation pair from the target asset, which, together with the rest pose, not only anchors the mapping but also defines the underlying rotation coordinate system. This formulation turns rotation prediction into a well-constrained conditional problem and enables effective learning. In addition, our model predicts joint positions directly from video without relying on mesh intermediates, improving both robustness and efficiency. Both stages share a skeleton-aware Global-Local Graph-guided Multi-Head Attention (GL-GMHA) module for joint-level local reasoning and global coordination. Experiments on Truebones Zoo and Objaverse show that our method reduces rotation error from ~17 degrees to ~10 degrees, and to 6.54 degrees on unseen skeletons, while achieving ~20x faster inference than mesh-based pipelines. Project page: https://animotionlab.github.io/MoCapAnythingV2/