MoCapAnything V2: Сквозной захват движения для произвольных скелетных структур
MoCapAnything V2: End-to-End Motion Capture for Arbitrary Skeletons
April 30, 2026
Авторы: Kehong Gong, Zhengyu Wen, Dao Thien Phong, Mingxi Xu, Weixia He, Qi Wang, Ning Zhang, Zhengyu Li, Guanli Hou, Dongze Lian, Xiaoyu He, Mingyuan Zhang, Hanwang Zhang
cs.AI
Аннотация
Современные методы захвата произвольного скелетного движения по монокулярному видео следуют факторизованному подходу: сеть Video-to-Pose предсказывает позиции суставов, а аналитический этап обратной кинематики (Inverse Kinematics, IK) восстанавливает их вращения. Несмотря на эффективность, такая архитектура имеет фундаментальные ограничения: позиции суставов не определяют вращения однозначно, оставляя неопределёнными степени свободы, такие как закручивание оси кости, а недифференцируемый этап IK не позволяет системе адаптироваться к зашумленным предсказаниям или оптимизироваться под конечную цель анимации. В данной работе мы представляем первую полностью сквозную (end-to-end) систему, в которой как Video-to-Pose, так и Pose-to-Rotation являются обучаемыми и совместно оптимизируемыми. Мы отмечаем, что неоднозначность отображения поза-во-вращение возникает из-за отсутствия информации о системе координат: одним и тем же позициям суставов могут соответствовать разные вращения при различных рест-позах и локальных соглашениях осях. Для решения этой проблемы мы вводим опорную пару поза-вращение из целевого ассета, которая вместе с рест-позой не только якорит отображение, но и определяет базовую систему координат для вращений. Такая формулировка превращает задачу предсказания вращений в хорошо обусловленную условную проблему и делает эффективное обучение возможным. Кроме того, наша модель предсказывает позиции суставов напрямую из видео, без использования промежуточных меш-моделей, что повышает как робастность, так и эффективность. Оба этапа используют общий скелетно-ориентированный модуль Global-Local Graph-guided Multi-Head Attention (GL-GMHA) для локального анализа на уровне суставов и их глобальной координации. Эксперименты на наборах данных Truebones Zoo и Objaverse показывают, что наш метод снижает ошибку вращения с ~17 градусов до ~10 градусов, а на неизвестных скелетах — до 6.54 градусов, при этом обеспечивая ускорение вывода примерно в 20 раз по сравнению с меш-ориентированными подходами. Страница проекта: https://animotionlab.github.io/MoCapAnythingV2/
English
Recent methods for arbitrary-skeleton motion capture from monocular video follow a factorized pipeline, where a Video-to-Pose network predicts joint positions and an analytical inverse-kinematics (IK) stage recovers joint rotations. While effective, this design is inherently limited, since joint positions do not fully determine rotations and leave degrees of freedom such as bone-axis twist ambiguous, and the non-differentiable IK stage prevents the system from adapting to noisy predictions or optimizing for the final animation objective. In this work, we present the first fully end-to-end framework in which both Video-to-Pose and Pose-to-Rotation are learnable and jointly optimized. We observe that the ambiguity in pose-to-rotation mapping arises from missing coordinate system information: the same joint positions can correspond to different rotations under different rest poses and local axis conventions. To resolve this, we introduce a reference pose-rotation pair from the target asset, which, together with the rest pose, not only anchors the mapping but also defines the underlying rotation coordinate system. This formulation turns rotation prediction into a well-constrained conditional problem and enables effective learning. In addition, our model predicts joint positions directly from video without relying on mesh intermediates, improving both robustness and efficiency. Both stages share a skeleton-aware Global-Local Graph-guided Multi-Head Attention (GL-GMHA) module for joint-level local reasoning and global coordination. Experiments on Truebones Zoo and Objaverse show that our method reduces rotation error from ~17 degrees to ~10 degrees, and to 6.54 degrees on unseen skeletons, while achieving ~20x faster inference than mesh-based pipelines. Project page: https://animotionlab.github.io/MoCapAnythingV2/