ChatPaper.aiChatPaper

MoCapAnything: 단안 비디오에서 임의의 골격에 대한 통합 3D 모션 캡처

MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos

December 11, 2025
저자: Kehong Gong, Zhengyu Wen, Weixia He, Mingxi Xu, Qi Wang, Ning Zhang, Zhengyu Li, Dongze Lian, Wei Zhao, Xiaoyu He, Mingyuan Zhang
cs.AI

초록

모션 캡처는 이제 디지털 휴먼을 넘어 콘텐츠 제작의 기반 기술이 되었으나, 대부분의 기존 파이프라인은 특정 종(species)이나 템플릿에 국한되어 있습니다. 우리는 이러한 격차를 '범주 불문 모션 캡처(Category-Agnostic Motion Capture, CAMoCap)'로 정형화합니다. CAMoCap의 목표는 단안 비디오와 프롬프트로 제공된 임의의 리깅된 3D 애셋이 주어졌을 때, 해당 애셋을 직접 구동할 수 있는 BVH와 같은 회전 기반 애니메이션을 복원하는 것입니다. 우리는 참조 지도 방식의 분할 프레임워크인 MoCapAnything를 제안합니다. 이 프레임워크는 먼저 3D 관절 궤적을 예측한 후, 제약 조건을 인지한 역기구학(Inverse Kinematics)을 통해 애셋 특화 회전값을 복구합니다. 본 시스템은 세 개의 학습 가능 모듈과 경량 IK 단계로 구성됩니다: (1) 애셋의 스켈레톤, 메시, 렌더링 이미지로부터 관절별 질의(query)를 추출하는 참조 프롬프트 인코더, (2) 밀집한 시각적 특징을 계산하고 비디오와 관절 공간 간의 격차를 메우기 위한 coarse한 4D 변형 메시를 복원하는 비디오 특징 추출기, (3) 이러한 정보를 융합하여 시간적으로 일관된 궤적을 생성하는 통합 모션 디코더입니다. 또한 1,038개의 모션 클립으로 구성된 Truebones Zoo를 구축했으며, 각 클립은 표준화된 스켈레톤-메시-렌더 삼중체(triad)를 제공합니다. 도메인 내 벤치마크와 실제 환경 비디오에 대한 실험 결과, MoCapAnything는 높은 품질의 스켈레톤 애니메이션을 제공하고 이종 리그 간 의미 있는 교차 종 재타겟팅을 수행하여 임의의 애셋에 대한 확장 가능한 프롬프트 기반 3D 모션 캡처를 가능하게 함을 보여줍니다. 프로젝트 페이지: https://animotionlab.github.io/MoCapAnything/
English
Motion capture now underpins content creation far beyond digital humans, yet most existing pipelines remain species- or template-specific. We formalize this gap as Category-Agnostic Motion Capture (CAMoCap): given a monocular video and an arbitrary rigged 3D asset as a prompt, the goal is to reconstruct a rotation-based animation such as BVH that directly drives the specific asset. We present MoCapAnything, a reference-guided, factorized framework that first predicts 3D joint trajectories and then recovers asset-specific rotations via constraint-aware inverse kinematics. The system contains three learnable modules and a lightweight IK stage: (1) a Reference Prompt Encoder that extracts per-joint queries from the asset's skeleton, mesh, and rendered images; (2) a Video Feature Extractor that computes dense visual descriptors and reconstructs a coarse 4D deforming mesh to bridge the gap between video and joint space; and (3) a Unified Motion Decoder that fuses these cues to produce temporally coherent trajectories. We also curate Truebones Zoo with 1038 motion clips, each providing a standardized skeleton-mesh-render triad. Experiments on both in-domain benchmarks and in-the-wild videos show that MoCapAnything delivers high-quality skeletal animations and exhibits meaningful cross-species retargeting across heterogeneous rigs, enabling scalable, prompt-driven 3D motion capture for arbitrary assets. Project page: https://animotionlab.github.io/MoCapAnything/
PDF201December 13, 2025