ChatPaper.aiChatPaper

MoCapAnything V2: End-to-End-Bewegungserfassung für beliebige Skelette

MoCapAnything V2: End-to-End Motion Capture for Arbitrary Skeletons

April 30, 2026
Autoren: Kehong Gong, Zhengyu Wen, Dao Thien Phong, Mingxi Xu, Weixia He, Qi Wang, Ning Zhang, Zhengyu Li, Guanli Hou, Dongze Lian, Xiaoyu He, Mingyuan Zhang, Hanwang Zhang
cs.AI

Zusammenfassung

Aktuelle Methoden für Motion Capture mit beliebigem Skelett aus monokularen Videos folgen einer faktorisierten Pipeline, bei der ein Video-zu-Pose-Netzwerk Gelenkpositionen vorhersagt und eine analytische Inverse-Kinematik (IK)-Stufe Gelenkrotationen berechnet. Diese Vorgehensweise ist zwar effektiv, jedoch inhärent begrenzt, da Gelenkpositionen Rotationen nicht vollständig bestimmen und Freiheitsgrade wie die Torsion der Knochenachse unbestimmt lassen. Zudem verhindert die nicht-differenzierbare IK-Stufe, dass das System sich an verrauschte Vorhersagen anpassen oder für das finale Animationsziel optimieren kann. In dieser Arbeit stellen wir das erste vollständige End-to-End-Framework vor, in dem sowohl Video-zu-Pose als auch Pose-zu-Rotation lernbar und gemeinsam optimiert werden. Wir beobachten, dass die Mehrdeutigkeit in der Pose-zu-Rotation-Abbildung aus fehlenden Koordinatensysteminformationen resultiert: Dieselben Gelenkpositionen können unter verschiedenen Ruheposen und lokalen Achsenkonventionen unterschiedlichen Rotationen entsprechen. Um dies aufzulösen, führen wir ein Referenz-Pose-Rotation-Paar aus dem Ziel-Asset ein, das zusammen mit der Ruhepose die Abbildung nicht nur verankert, sondern auch das zugrundeliegende Rotationskoordinatensystem definiert. Diese Formulierung macht die Rotationsvorhersage zu einem wohldefinierten konditionalen Problem und ermöglicht effektives Lernen. Zudem sagt unser Modell Gelenkpositionen direkt aus dem Video vorher, ohne auf Mesh-Zwischenstufen angewiesen zu sein, was sowohl Robustheit als auch Effizienz verbessert. Beide Stufen teilen sich ein skelettbewusstes Global-Local Graph-guided Multi-Head Attention (GL-GMHA)-Modul für lokale Gelenkverarbeitung und globale Koordination. Experimente auf Truebones Zoo und Objaverse zeigen, dass unsere Methode den Rotationsfehler von ~17 Grad auf ~10 Grad und auf 6,54 Grad bei unbekannten Skeletten reduziert, bei gleichzeitig ~20-fach schnellerer Inferenz als mesh-basierte Pipelines. Projektseite: https://animotionlab.github.io/MoCapAnythingV2/
English
Recent methods for arbitrary-skeleton motion capture from monocular video follow a factorized pipeline, where a Video-to-Pose network predicts joint positions and an analytical inverse-kinematics (IK) stage recovers joint rotations. While effective, this design is inherently limited, since joint positions do not fully determine rotations and leave degrees of freedom such as bone-axis twist ambiguous, and the non-differentiable IK stage prevents the system from adapting to noisy predictions or optimizing for the final animation objective. In this work, we present the first fully end-to-end framework in which both Video-to-Pose and Pose-to-Rotation are learnable and jointly optimized. We observe that the ambiguity in pose-to-rotation mapping arises from missing coordinate system information: the same joint positions can correspond to different rotations under different rest poses and local axis conventions. To resolve this, we introduce a reference pose-rotation pair from the target asset, which, together with the rest pose, not only anchors the mapping but also defines the underlying rotation coordinate system. This formulation turns rotation prediction into a well-constrained conditional problem and enables effective learning. In addition, our model predicts joint positions directly from video without relying on mesh intermediates, improving both robustness and efficiency. Both stages share a skeleton-aware Global-Local Graph-guided Multi-Head Attention (GL-GMHA) module for joint-level local reasoning and global coordination. Experiments on Truebones Zoo and Objaverse show that our method reduces rotation error from ~17 degrees to ~10 degrees, and to 6.54 degrees on unseen skeletons, while achieving ~20x faster inference than mesh-based pipelines. Project page: https://animotionlab.github.io/MoCapAnythingV2/
PDF41May 2, 2026