ChatPaper.aiChatPaper

MoCapAnything V2 : Capture de Mouvement de Bout en Bout pour des Squelettes Arbitraires

MoCapAnything V2: End-to-End Motion Capture for Arbitrary Skeletons

April 30, 2026
Auteurs: Kehong Gong, Zhengyu Wen, Dao Thien Phong, Mingxi Xu, Weixia He, Qi Wang, Ning Zhang, Zhengyu Li, Guanli Hou, Dongze Lian, Xiaoyu He, Mingyuan Zhang, Hanwang Zhang
cs.AI

Résumé

Les méthodes récentes de capture de mouvement à squelette arbitraire à partir de vidéos monoculaires suivent un pipeline factorisé : un réseau Vidéo-vers-Poste prédit les positions articulaires, puis une étape d'inverse cinématique (IK) analytique reconstruit les rotations articulaires. Bien qu'efficace, cette conception est intrinsèquement limitée, car les positions articulaires ne déterminent pas entièrement les rotations et laissent des degrés de liberté, tels que la torsion de l'axe osseux, ambigus. De plus, l'étape IK non différentiable empêche le système de s'adapter aux prédictions bruitées ou d'optimiser l'objectif d'animation final. Dans ce travail, nous présentons le premier cadre entièrement end-to-end dans lequel à la fois Vidéo-vers-Poste et Posture-vers-Rotation sont apprenables et optimisés conjointement. Nous observons que l'ambiguïté dans la cartographie posture-rotation provient de l'absence d'information sur le système de coordonnées : les mêmes positions articulaires peuvent correspondre à différentes rotations selon les postures de repos et les conventions d'axes locales. Pour résoudre ce problème, nous introduisons une paire posture-référence/rotation-référence provenant de l'asset cible, qui, avec la posture de repos, ancre non seulement la cartographie mais définit aussi le système de coordonnées de rotation sous-jacent. Cette formulation transforme la prédiction de rotation en un problème conditionnel bien contraint et permet un apprentissage efficace. De plus, notre modèle prédit les positions articulaires directement à partir de la vidéo sans recourir à des intermédiaires de maillage, améliorant ainsi la robustesse et l'efficacité. Les deux étapes partagent un module d'attention multi-têtes guidée par graphe Global-Local (GL-GMHA) conscient du squelette, pour un raisonnement local au niveau articulaire et une coordination globale. Les expériences sur Truebones Zoo et Objaverse montrent que notre méthode réduit l'erreur de rotation d'environ 17 degrés à environ 10 degrés, et à 6,54 degrés sur des squelettes non vus, tout en réalisant une inférence environ 20 fois plus rapide que les pipelines basés sur le maillage. Page du projet : https://animotionlab.github.io/MoCapAnythingV2/
English
Recent methods for arbitrary-skeleton motion capture from monocular video follow a factorized pipeline, where a Video-to-Pose network predicts joint positions and an analytical inverse-kinematics (IK) stage recovers joint rotations. While effective, this design is inherently limited, since joint positions do not fully determine rotations and leave degrees of freedom such as bone-axis twist ambiguous, and the non-differentiable IK stage prevents the system from adapting to noisy predictions or optimizing for the final animation objective. In this work, we present the first fully end-to-end framework in which both Video-to-Pose and Pose-to-Rotation are learnable and jointly optimized. We observe that the ambiguity in pose-to-rotation mapping arises from missing coordinate system information: the same joint positions can correspond to different rotations under different rest poses and local axis conventions. To resolve this, we introduce a reference pose-rotation pair from the target asset, which, together with the rest pose, not only anchors the mapping but also defines the underlying rotation coordinate system. This formulation turns rotation prediction into a well-constrained conditional problem and enables effective learning. In addition, our model predicts joint positions directly from video without relying on mesh intermediates, improving both robustness and efficiency. Both stages share a skeleton-aware Global-Local Graph-guided Multi-Head Attention (GL-GMHA) module for joint-level local reasoning and global coordination. Experiments on Truebones Zoo and Objaverse show that our method reduces rotation error from ~17 degrees to ~10 degrees, and to 6.54 degrees on unseen skeletons, while achieving ~20x faster inference than mesh-based pipelines. Project page: https://animotionlab.github.io/MoCapAnythingV2/
PDF41May 2, 2026