MoCapAnything: Vereinheitlichte 3D-Bewegungserfassung für beliebige Skelette aus monokularen Videos
MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos
December 11, 2025
papers.authors: Kehong Gong, Zhengyu Wen, Weixia He, Mingxi Xu, Qi Wang, Ning Zhang, Zhengyu Li, Dongze Lian, Wei Zhao, Xiaoyu He, Mingyuan Zhang
cs.AI
papers.abstract
Bewegungserfassung bildet heute die Grundlage für die Inhaltserstellung weit über digitale Menschen hinaus, doch die meisten bestehenden Pipelines bleiben art- oder templatespezifisch. Wir formalisieren diese Lücke als kategorieagnostische Bewegungserfassung (CAMoCap): Ziel ist es, aus einem monokularen Video und einer beliebigen rigged 3D-Asset-Eingabe eine rotationsbasierte Animation (z.B. BVH) zu rekonstruieren, die das spezifische Asset direkt steuert. Wir stellen MoCapAnything vor, ein referenzgeführtes, faktorisiertes Framework, das zunächst 3D-Gelenktrajektorien vorhersagt und dann assetspezifische Rotationen durch constraint-bewusste inverse Kinematik ermittelt. Das System umfasst drei lernbare Module und eine leichtgewichtige IK-Stufe: (1) einen Referenz-Prompt-Encoder, der pro Gelenk Abfragen aus dem Skelett, Mesh und gerenderten Bildern des Assets extrahiert; (2) einen Video-Feature-Extractor, der dichte visuelle Deskriptoren berechnet und ein grobes 4D-Deformationsmesh rekonstruiert, um die Lücke zwischen Video- und Gelenkraum zu überbrücken; und (3) einen Unified Motion Decoder, der diese Informationen fusioniert, um zeitlich kohärente Trajektorien zu erzeugen. Zudem haben wir Truebones Zoo mit 1038 Bewegungsclips kuratiert, die jeweils eine standardisierte Skelett-Mesh-Render-Triade bereitstellen. Experimente auf sowohl domänen-internen Benchmarks als auch In-the-Wild-Videos zeigen, dass MoCapAnything hochwertige Skelettanimationen liefert und sinnvolles artübergreifendes Retargeting über heterogene Rigs hinweg ermöglicht, was skalierbare, prompt-gesteuerte 3D-Bewegungserfassung für beliebige Assets erlaubt. Projektseite: https://animotionlab.github.io/MoCapAnything/
English
Motion capture now underpins content creation far beyond digital humans, yet most existing pipelines remain species- or template-specific. We formalize this gap as Category-Agnostic Motion Capture (CAMoCap): given a monocular video and an arbitrary rigged 3D asset as a prompt, the goal is to reconstruct a rotation-based animation such as BVH that directly drives the specific asset. We present MoCapAnything, a reference-guided, factorized framework that first predicts 3D joint trajectories and then recovers asset-specific rotations via constraint-aware inverse kinematics. The system contains three learnable modules and a lightweight IK stage: (1) a Reference Prompt Encoder that extracts per-joint queries from the asset's skeleton, mesh, and rendered images; (2) a Video Feature Extractor that computes dense visual descriptors and reconstructs a coarse 4D deforming mesh to bridge the gap between video and joint space; and (3) a Unified Motion Decoder that fuses these cues to produce temporally coherent trajectories. We also curate Truebones Zoo with 1038 motion clips, each providing a standardized skeleton-mesh-render triad. Experiments on both in-domain benchmarks and in-the-wild videos show that MoCapAnything delivers high-quality skeletal animations and exhibits meaningful cross-species retargeting across heterogeneous rigs, enabling scalable, prompt-driven 3D motion capture for arbitrary assets. Project page: https://animotionlab.github.io/MoCapAnything/