MoCapAnything: Унифицированный захват движения в 3D для произвольных скелетов по моноскопическим видео
MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos
December 11, 2025
Авторы: Kehong Gong, Zhengyu Wen, Weixia He, Mingxi Xu, Qi Wang, Ning Zhang, Zhengyu Li, Dongze Lian, Wei Zhao, Xiaoyu He, Mingyuan Zhang
cs.AI
Аннотация
Системы захвата движения в настоящее время лежат в основе создания контента, выходящего далеко за рамки цифровых людей, однако большинство существующих пайплайнов остаются специфичными для определенного вида или шаблона. Мы формализуем этот пробел как Захват движения, не зависящий от категории (Category-Agnostic Motion Capture, CAMoCap): имея монохромное видео и произвольный ригнутый 3D-ассет в качестве промпта, цель — реконструировать анимацию на основе вращений (например, BVH), которая напрямую управляет конкретным ассетом. Мы представляем MoCapAnything, референс-управляемую факторизованную систему, которая сначала предсказывает траектории 3D-суставов, а затем восстанавливает специфичные для ассета вращения с помощью обратной кинематики с учетом ограничений. Система содержит три обучаемых модуля и облегченный этап IK: (1) Кодировщик референсных промптов, который извлекает запросы для каждого сустава из скелета, меша и рендеров ассета; (2) Экстрактор признаков видео, который вычисляет плотные визуальные дескрипторы и реконструирует грубый 4D деформируемый меш, чтобы преодолеть разрыв между видеопространством и пространством суставов; и (3) Унифицированный декодер движения, который объединяет эти сигналы для генерации временно согласованных траекторий. Мы также создали Truebones Zoo, содержащий 1038 клипов движения, каждый из которых предоставляет стандартизированную триаду «скелет-меш-рендер». Эксперименты как на внутридоменных бенчмарках, так и на реальных видео показывают, что MoCapAnything обеспечивает высококачественную скелетную анимацию и демонстрирует осмысленный ретаргетинг движения между видами для гетерогенных ригов, обеспечивая масштабируемый, промпт-управляемый захват 3D-движения для произвольных ассетов. Страница проекта: https://animotionlab.github.io/MoCapAnything/
English
Motion capture now underpins content creation far beyond digital humans, yet most existing pipelines remain species- or template-specific. We formalize this gap as Category-Agnostic Motion Capture (CAMoCap): given a monocular video and an arbitrary rigged 3D asset as a prompt, the goal is to reconstruct a rotation-based animation such as BVH that directly drives the specific asset. We present MoCapAnything, a reference-guided, factorized framework that first predicts 3D joint trajectories and then recovers asset-specific rotations via constraint-aware inverse kinematics. The system contains three learnable modules and a lightweight IK stage: (1) a Reference Prompt Encoder that extracts per-joint queries from the asset's skeleton, mesh, and rendered images; (2) a Video Feature Extractor that computes dense visual descriptors and reconstructs a coarse 4D deforming mesh to bridge the gap between video and joint space; and (3) a Unified Motion Decoder that fuses these cues to produce temporally coherent trajectories. We also curate Truebones Zoo with 1038 motion clips, each providing a standardized skeleton-mesh-render triad. Experiments on both in-domain benchmarks and in-the-wild videos show that MoCapAnything delivers high-quality skeletal animations and exhibits meaningful cross-species retargeting across heterogeneous rigs, enabling scalable, prompt-driven 3D motion capture for arbitrary assets. Project page: https://animotionlab.github.io/MoCapAnything/