MoCapAnything V2: Captura de Movimento de Ponta a Ponta para Esqueletos Arbitrários
MoCapAnything V2: End-to-End Motion Capture for Arbitrary Skeletons
April 30, 2026
Autores: Kehong Gong, Zhengyu Wen, Dao Thien Phong, Mingxi Xu, Weixia He, Qi Wang, Ning Zhang, Zhengyu Li, Guanli Hou, Dongze Lian, Xiaoyu He, Mingyuan Zhang, Hanwang Zhang
cs.AI
Resumo
Os métodos recentes para captura de movimento com esqueletos arbitrários a partir de vídeo monocular seguem um pipeline fatorizado, no qual uma rede Vídeo-para-Pose prevê as posições das articulações e uma etapa analítica de cinemática inversa (IK) recupera as rotações articulares. Embora eficaz, este projeto é inerentemente limitado, uma vez que as posições articulares não determinam totalmente as rotações e deixam graus de liberdade como a torção do eixo ósseo ambíguos, e a etapa não diferenciável de IK impede que o sistema se adapte a previsões ruidosas ou otimize para o objetivo final de animação. Neste trabalho, apresentamos o primeiro framework totalmente end-to-end no qual tanto Vídeo-para-Pose quanto Pose-para-Rotação são aprendíveis e otimizados conjuntamente. Observamos que a ambiguidade no mapeamento pose-para-rotação surge da informação faltante do sistema de coordenadas: as mesmas posições articulares podem corresponder a rotações diferentes sob diferentes poses de repouso e convenções de eixos locais. Para resolver isto, introduzimos um par de referência pose-rotação do ativo alvo, que, juntamente com a pose de repouso, não apenas ancora o mapeamento, mas também define o sistema de coordenadas de rotação subjacente. Esta formulação transforma a previsão de rotação num problema condicional bem restringido e permite uma aprendizagem eficaz. Adicionalmente, o nosso modelo prevê posições articulares diretamente do vídeo sem depender de intermediários de malha, melhorando tanto a robustez como a eficiência. Ambas as etapas partilham um módulo de Atenção Multi-Cabeça Guiada por Grafo Global-Local (GL-GMHA) consciente do esqueleto para raciocínio local a nível articular e coordenação global. Experiências no Truebones Zoo e Objaverse mostram que o nosso método reduz o erro de rotação de ~17 graus para ~10 graus, e para 6,54 graus em esqueletos não vistos, enquanto alcança uma inferência ~20x mais rápida do que os pipelines baseados em malha. Página do projeto: https://animotionlab.github.io/MoCapAnythingV2/
English
Recent methods for arbitrary-skeleton motion capture from monocular video follow a factorized pipeline, where a Video-to-Pose network predicts joint positions and an analytical inverse-kinematics (IK) stage recovers joint rotations. While effective, this design is inherently limited, since joint positions do not fully determine rotations and leave degrees of freedom such as bone-axis twist ambiguous, and the non-differentiable IK stage prevents the system from adapting to noisy predictions or optimizing for the final animation objective. In this work, we present the first fully end-to-end framework in which both Video-to-Pose and Pose-to-Rotation are learnable and jointly optimized. We observe that the ambiguity in pose-to-rotation mapping arises from missing coordinate system information: the same joint positions can correspond to different rotations under different rest poses and local axis conventions. To resolve this, we introduce a reference pose-rotation pair from the target asset, which, together with the rest pose, not only anchors the mapping but also defines the underlying rotation coordinate system. This formulation turns rotation prediction into a well-constrained conditional problem and enables effective learning. In addition, our model predicts joint positions directly from video without relying on mesh intermediates, improving both robustness and efficiency. Both stages share a skeleton-aware Global-Local Graph-guided Multi-Head Attention (GL-GMHA) module for joint-level local reasoning and global coordination. Experiments on Truebones Zoo and Objaverse show that our method reduces rotation error from ~17 degrees to ~10 degrees, and to 6.54 degrees on unseen skeletons, while achieving ~20x faster inference than mesh-based pipelines. Project page: https://animotionlab.github.io/MoCapAnythingV2/