ChatPaper.aiChatPaper

MoCapAnything: Geünificeerde 3D-bewegingscaptuur voor willekeurige skeletten vanuit monovideo's

MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos

December 11, 2025
Auteurs: Kehong Gong, Zhengyu Wen, Weixia He, Mingxi Xu, Qi Wang, Ning Zhang, Zhengyu Li, Dongze Lian, Wei Zhao, Xiaoyu He, Mingyuan Zhang
cs.AI

Samenvatting

Motion capture vormt tegenwoordig de basis voor contentcreatie ver buiten digitale mensen, maar de meeste bestaande pipelines blijven soort- of templatespecifiek. Wij formaliseren deze kloof als Categorie-Agnostische Motion Capture (CAMoCap): gegeven een monovideo en een willekeurig gerigde 3D-asset als prompt, is het doel een rotatiegebaseerde animatie (zoals BVH) te reconstrueren die de specifieke asset direct aanstuurt. Wij presenteren MoCapAnything, een referentiegeleid, gefactoriseerd framework dat eerst 3D-gewrichtstrajecten voorspelt en daarna asset-specifieke rotaties herstelt via constraint-aware inverse kinematica. Het systeem bevat drie leerbare modules en een lichtgewicht IK-stadium: (1) een Reference Prompt Encoder die per-gewricht queries extraheert uit de skeleton, mesh en gerenderde afbeeldingen van de asset; (2) een Video Feature Extractor die dichte visuele descriptors berekent en een grove 4D deformerende mesh reconstrueert om de kloof tussen video- en gewrichtsruimte te overbruggen; en (3) een Unified Motion Decoder die deze signalen fuseert om temporeel coherente trajecten te produceren. Wij stelden ook Truebones Zoo samen met 1038 motion clips, elk voorzien van een gestandaardiseerde skeleton-mesh-render triade. Experimenten op zowel in-domein benchmarks als in-the-wild video's tonen aan dat MoCapAnything hoogwaardige skeletanimaties levert en zinvolle cross-species retargeting vertoont over heterogene rigs, waardoor schaalbare, prompt-gestuurde 3D-motion capture voor willekeurige assets mogelijk wordt. Projectpagina: https://animotionlab.github.io/MoCapAnything/
English
Motion capture now underpins content creation far beyond digital humans, yet most existing pipelines remain species- or template-specific. We formalize this gap as Category-Agnostic Motion Capture (CAMoCap): given a monocular video and an arbitrary rigged 3D asset as a prompt, the goal is to reconstruct a rotation-based animation such as BVH that directly drives the specific asset. We present MoCapAnything, a reference-guided, factorized framework that first predicts 3D joint trajectories and then recovers asset-specific rotations via constraint-aware inverse kinematics. The system contains three learnable modules and a lightweight IK stage: (1) a Reference Prompt Encoder that extracts per-joint queries from the asset's skeleton, mesh, and rendered images; (2) a Video Feature Extractor that computes dense visual descriptors and reconstructs a coarse 4D deforming mesh to bridge the gap between video and joint space; and (3) a Unified Motion Decoder that fuses these cues to produce temporally coherent trajectories. We also curate Truebones Zoo with 1038 motion clips, each providing a standardized skeleton-mesh-render triad. Experiments on both in-domain benchmarks and in-the-wild videos show that MoCapAnything delivers high-quality skeletal animations and exhibits meaningful cross-species retargeting across heterogeneous rigs, enabling scalable, prompt-driven 3D motion capture for arbitrary assets. Project page: https://animotionlab.github.io/MoCapAnything/
PDF201December 13, 2025